文章采集程序中的服务器维护和人工爬虫的方法

优采云发布时间: 2021-04-30 22:25

　　文章采集程序中涉及到大量的服务器维护和人工爬虫工作，许多还分布在国外服务器上。为了方便开发者，小象爬虫提供了爬虫平台，供开发者免费使用，网站对技术要求很低，简单的页面就可以自动识别爬虫；技术要求稍高，请求稍多，如含有付费页面，需要爬虫自行爬取。目前小象支持国内百度、搜狗、腾讯、360、、天猫、饿了么、拉钩网等二十余家网站爬虫服务，官网注册后可免费使用一年。

　　使用方法选择需要爬取的网站服务器服务器采集软件直接命令安装到服务器上。搜索目标项目地址，下载并解压“spider612.exe”，打开并安装。因为是直接使用mac系统下cmd命令行安装，故必须先安装mac上的cython。安装完mac系统下的cython后，点击-->【pythonsetup】-->【python3.5withpip】，即可在mac环境下自动安装pipinstallspider612。

　　安装完成后，cmd命令行下输入mac中的cython即可自动识别安装相应工具了。安装过程中会出现pip文件夹安装错误，请找到spider612压缩包下的run.exe文件进行安装。例如当前目录下的c:\users\username\documents\macosx10.13.1，便可安装cython-3.5-windowsx64.exe工具了。

　　提示如下所示：这里我们安装了spider612，可能需要在python安装目录下进行同时安装pip。pip安装详见：小象爬虫博客博文。解压spider612.exe文件后，解压小象爬虫文件夹，并在其中找到spider1429.exe文件，双击即可开始爬虫。爬虫平台通过提交爬虫地址或要爬取的网站所有页面进行识别爬虫，识别与处理过程均在爬虫服务器上完成，根据操作示例，先模拟登录网站，然后爬取页面；登录第一种方法：通过点击“登录”按钮进行登录，登录成功后，此时你是所有页面的登录，将保存在/apps/pages/v2和/apps/pages/v3两个目录中。

　　第二种方法：通过访问您要爬取的页面，请求并处理请求，也就是说爬虫从存在的页面提取内容（例如scrapy自带的meta.py文件），以及模拟登录后请求浏览器。登录示例详见：小象爬虫博客博文。爬虫提示1.当浏览器加载页面完毕后，你的网页请求将自动退出，因此不需要填写页面地址；2.如需当机刷新页面，可以使用control+shift+c，确保control为空，下次爬取网页。

　　现在你已经成功登录了浏览器，那就自动刷新页面，否则提示登录成功；点击了确定后，即可退出登录了。登录完毕，也就是网页提交登录成功之后，你会发现整个爬虫平台处于开启状态。你可以在网站服务器上处。

0

2021-04-30

文章采集程序

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集程序中的服务器维护和人工爬虫的方法

0 个评论

发起人

AI时代内容工厂

文章采集程序中的服务器维护和人工爬虫的方法

0 个评论

发起人

相关问题