在现在的网络社会爬虫无处不在,小到蜘蛛抓取,大到爬虫寻找安全漏洞。但是很多人又想自己弄个爬虫服务来装13怎么办呢?PySpider 就很适合你了
准备工作
更新YUM 安装器
yum update -y
安装程序编译工具
yum install gcc gcc-c++ -y
安装开发依赖库
yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y
升级PIP环境
pip install --upgrade pip
安装 mariadb 并启动服务 (当然你也可以自行拿mysql代替)
yum install mariadb-server mariadb -y
systemctl start mariadb
设置mysqladmin的密码
mysqladmin -u root password "chazhiawa"
部署 redis
下载安装包
wget http://download.redis.io/redis-stable.tar.gz
解压安装包
tar -xzvf redis-stable.tar.gz
将安装包移动到local目录内
mv redis-stable /usr/local/redis
编译安装Redis
cd /usr/local/redis
make
make install
配置路径
mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf
进入目录/etc/redis/redis.conf并使用前面文章讲过的命令进行修改
将deamoinize 后面改为yes
启动redis服务
/usr/local/bin/redis-server /etc/redis/redis.conf
部署 pyspider
pip install --upgrade chardet
easy_install mysql-connector==2.1.3
easy_install redis
pip install Jinja2==2.10
安装 pyspider
pip install pyspider
配置Pyspider
mkdir /etc/pyspider
在目录下创建[pyspider.conf.json]()文件 将内容配置为
{
"taskdb": "mysql+taskdb://root:chazhiawa@127.0.0.1:3306/taskdb",
"projectdb": "mysql+projectdb://root:chazhiawa@127.0.0.1:3306/projectdb",
"resultdb": "mysql+resultdb://root:chazhiawa@127.0.0.1:3306/resultdb",
"message_queue": "redis://127.0.0.1:6379/db",
"webui": {
"username": "root",
"password": "chazhiawa",
"need-auth": false
}
}
如果看不懂的话可以参考官方文本[http://docs.pyspider.org/en/latest/Deployment/#configjson]()
启动爬虫服务
pyspider -c /etc/pyspider/pyspider.conf.json
访问ip:5000 即可看到pyspider的首页
运行pyspder
nohup pyspider -c /etc/pyspider/pyspider.conf.json &
大功告成
额具体使用教程我还没摸明白呢,无意间从腾讯云大学看到了然后学习了一下把操作简便了下出的这个教程,所以深度操作我自己还没摸明白呢............ 本次教程比较难建议反复观看加学习