在现在的网络社会爬虫无处不在,小到蜘蛛抓取,大到爬虫寻找安全漏洞。但是很多人又想自己弄个爬虫服务来装13怎么办呢?PySpider 就很适合你了

准备工作

更新YUM 安装器

yum update -y

安装程序编译工具

yum install gcc gcc-c++ -y

安装开发依赖库

yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升级PIP环境

pip install --upgrade pip

安装 mariadb 并启动服务 (当然你也可以自行拿mysql代替)

yum install mariadb-server mariadb -y

systemctl start mariadb

设置mysqladmin的密码

mysqladmin -u root password "chazhiawa"

部署 redis

下载安装包

wget http://download.redis.io/redis-stable.tar.gz

解压安装包

tar -xzvf redis-stable.tar.gz

将安装包移动到local目录内

mv redis-stable /usr/local/redis

编译安装Redis

cd /usr/local/redis
make
make install

配置路径

mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf

进入目录/etc/redis/redis.conf并使用前面文章讲过的命令进行修改

将deamoinize 后面改为yes

启动redis服务

/usr/local/bin/redis-server /etc/redis/redis.conf

部署 pyspider

pip install --upgrade chardet
easy_install mysql-connector==2.1.3
easy_install redis
pip install Jinja2==2.10

安装 pyspider

pip install pyspider

配置Pyspider

mkdir /etc/pyspider

在目录下创建[pyspider.conf.json]()文件 将内容配置为

{
"taskdb": "mysql+taskdb://root:chazhiawa@127.0.0.1:3306/taskdb",
"projectdb": "mysql+projectdb://root:chazhiawa@127.0.0.1:3306/projectdb",
"resultdb": "mysql+resultdb://root:chazhiawa@127.0.0.1:3306/resultdb",
"message_queue": "redis://127.0.0.1:6379/db",
"webui": {
"username": "root",
"password": "chazhiawa",
"need-auth": false
}
}

如果看不懂的话可以参考官方文本[http://docs.pyspider.org/en/latest/Deployment/#configjson]()

启动爬虫服务

pyspider -c /etc/pyspider/pyspider.conf.json

访问ip:5000 即可看到pyspider的首页

运行pyspder

nohup pyspider -c /etc/pyspider/pyspider.conf.json &

大功告成

额具体使用教程我还没摸明白呢,无意间从腾讯云大学看到了然后学习了一下把操作简便了下出的这个教程,所以深度操作我自己还没摸明白呢............ 本次教程比较难建议反复观看加学习

文章阅读预计用时:3分钟
文章操作预计用时:20分钟
最后修改:2020 年 08 月 18 日 09 : 35 AM
如果觉得我的文章对你有用,请随意赞赏