实战案例使用singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具

优采云发布时间: 2021-06-28 00:02

　　文章采集功能采集速度非常快，只要简单调用采集工具或者采集api，即可一键采集复杂网站的博客文章。采集功能类似于爬虫，有多种爬虫语言可供选择，详情见介绍页。部分源码分享下面是我采集的github-singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具。实战案例使用singleengcheng/myblogexperimental打开网页/，采集复杂网站的博客文章。

　　首先新建一个窗口,调用采集工具，手动去选择文章，单击完成操作。step1:新建页面step2:查看下文章链接及详情页源码step3:查看用户名及密码step4:显示表格，找到需要的数据区域step5:利用spider这个工具输入表格中数据，采集完成后将获得相应的json数据这里重点讲下大家很容易忽略的一步：文章原始链接和详情页的源码。

　　我们可以看到，原始链接没有改变，详情页也没有变化，但是，文章列表中出现了一些变化，这就是这篇文章的点击链接。而这就是我们想要的文章列表。文章列表只需抓取其中的点击的部分，有兴趣的可以继续挖掘。网站原始链接最终得到了文章列表的源码：详情页step6:找到用户名及密码，使用采集api,把网站原始链接解析出来：对，将整个文章的url发送给api，告诉api将原始链接解析出来step7:找到用户名和密码，获取二者名字，将后缀名发送给api，告诉api将用户名和密码分别解析出来，并传给api，你会得到用户名和密码这里还要注意一点，api会先解析出原始链接，再将原始链接发送给这个网站。

　　所以我们可以在将原始链接解析出来后发送出去。比如解析出来了url，也发送出去了，但是用户名和密码没有获取出来，就需要打开这个网站使用api进行获取。最终得到了用户名和密码step8:根据用户名和密码返回结果进行下一步操作。我们要找到每篇文章对应的文章列表中的数据，直接ajax请求得到返回数据比较慢，这里可以使用chrome扩展，使用chrome的cookie来获取，等你退出chrome,再打开这个网站你会发现页面上已经有返回结果数据了。

　　直接定位下单篇文章的源码抓完了页面，我们再返回header：值正常就可以返回数据了。然后根据源码，用网站地址查询找到对应的详情页地址，回家查询数据，定位到每篇文章的详情页地址中，并返回详情页地址即可。step9:用html重新进入到刚才返回的网站，抓取详情页地址，更改好详情页地址即可。通过命令行工具，如nodemon、express可以将网站代理化，直接利用nodemon就可以完成代理化。需要注意的是，express本身是支持代理化操作的，必须要安装express的命令行工具，并。

0

2021-06-28

文章采集功能

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

实战案例使用singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具

0 个评论

发起人

AI时代内容工厂

实战案例使用singleengcheng/myblogexperimental:一个简单高效且多语言支持的采集工具

0 个评论

发起人

相关问题