实战案例使用singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具

优采云 发布时间: 2021-06-28 00:02

  实战案例使用singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具

  文章采集功能采集速度非常快,只要简单调用采集工具或者采集api,即可一键采集复杂网站的博客文章。采集功能类似于爬虫,有多种爬虫语言可供选择,详情见介绍页。部分源码分享下面是我采集的github-singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具。实战案例使用singleengcheng/myblogexperimental打开网页/,采集复杂网站的博客文章。

  首先新建一个窗口,调用采集工具,手动去选择文章,单击完成操作。step1:新建页面step2:查看下文章链接及详情页源码step3:查看用户名及密码step4:显示表格,找到需要的数据区域step5:利用spider这个工具输入表格中数据,采集完成后将获得相应的json数据这里重点讲下大家很容易忽略的一步:文章原始链接和详情页的源码。

  我们可以看到,原始链接没有改变,详情页也没有变化,但是,文章列表中出现了一些变化,这就是这篇文章的点击链接。而这就是我们想要的文章列表。文章列表只需抓取其中的点击的部分,有兴趣的可以继续挖掘。网站原始链接最终得到了文章列表的源码:详情页step6:找到用户名及密码,使用采集api,把网站原始链接解析出来:对,将整个文章的url发送给api,告诉api将原始链接解析出来step7:找到用户名和密码,获取二者名字,将后缀名发送给api,告诉api将用户名和密码分别解析出来,并传给api,你会得到用户名和密码这里还要注意一点,api会先解析出原始链接,再将原始链接发送给这个网站。

  所以我们可以在将原始链接解析出来后发送出去。比如解析出来了url,也发送出去了,但是用户名和密码没有获取出来,就需要打开这个网站使用api进行获取。最终得到了用户名和密码step8:根据用户名和密码返回结果进行下一步操作。我们要找到每篇文章对应的文章列表中的数据,直接ajax请求得到返回数据比较慢,这里可以使用chrome扩展,使用chrome的cookie来获取,等你退出chrome,再打开这个网站你会发现页面上已经有返回结果数据了。

  直接定位下单篇文章的源码抓完了页面,我们再返回header:值正常就可以返回数据了。然后根据源码,用网站地址查询找到对应的详情页地址,回家查询数据,定位到每篇文章的详情页地址中,并返回详情页地址即可。step9:用html重新进入到刚才返回的网站,抓取详情页地址,更改好详情页地址即可。通过命令行工具,如nodemon、express可以将网站代理化,直接利用nodemon就可以完成代理化。需要注意的是,express本身是支持代理化操作的,必须要安装express的命令行工具,并。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线