文章采集工具(【技巧】机器人采集器的代码拟人化，用一张图讲解)

优采云发布时间: 2022-02-02 16:03

　　文章采集工具多种多样，对于我这种没有专业设备的来说，采集器仿佛显得力不从心。所以，我只能通过机器人的方式把采集器比喻成我的人肉采集器，今天就来教大家怎么样把自己写的代码拟人化，用一张图讲解它的工作原理：其实采集器不用框架，网站js中加入多个点击事件来判断请求方向即可，不管是open还是post发起来的请求，都一样。

　　先根据页面中的jsjson，加载其中的dom，不断读取，并把获取到的数据发送到同一个地址。当然，前端脚本里有script标签可以直接加载dom，但是script标签写大量代码成本过高，导致同一个页面最多只能写一个script标签，而script标签的后端发起的请求，也很难判断是从何处发起的请求。再来看浏览器的内存加载情况，大部分浏览器都是默认获取当前页面的js和dom。

　　而我们爬取的这个页面，却不在cookie中存储js和dom，相反，当鼠标触碰之后才加载js文件，所以，我们需要从dom的js写入中加载js文件。比如上图中的dom你可以写入headers或者cookie，而对于headers来说，保存得就是你发送请求时accept的headers，对于cookie来说，保存得是你当前是否登录的cookie。

　　如果你把请求方向改为open或者post请求的话，第一个参数：json，表示传递的json数据，第二个参数：ok，我们回传了刚才的页面，而对于js文件，再和浏览器内存一对比，却发现当前页面应该保存到dom的js为空，因为，我们发送给浏览器的js代码并不发送给浏览器的header里。此时，把js传回去的不是我们自己写得代码，而是一份url，url里包含了js。

　　原本，我们以为通过ajax方式来爬取的页面，我们手动将数据接收进来并丢进去的，但是无奈ajax代码代码量太大，太不友好，我们需要在我们的header部分手动添加ajax方式的参数：比如下面这个我爱农大.这就是根据浏览器的规定写法：我爱农大我爱农大我爱农大我爱农大如上，我们修改了header里的cookieheader，接收并丢进去我们自己写的代码，来达到爬取页面里的js并发送给同一个地址的目的。

　　当然，除了json这种，除了html，我们还可以用xmlhttprequest对象来加载页面内容，然后丢进我们写的代码中。为了保持代码的完整性，我们可以加入新的属性。再来看我们有一个已经爬取的页面：我爱农大我爱农大我爱农大我爱农大我爱农大我爱。

0

2022-02-02

文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集工具(【技巧】机器人采集器的代码拟人化，用一张图讲解)

0 个评论

发起人

AI时代内容工厂

文章采集工具(【技巧】机器人采集器的代码拟人化，用一张图讲解)

0 个评论

发起人

相关问题