网站程序自带的采集器采集文章(优采云采集器加强了post采集网址的功能,这是方式获得网址 )
优采云 发布时间: 2022-04-06 20:22网站程序自带的采集器采集文章(优采云采集器加强了post采集网址的功能,这是方式获得网址
)
POST 方法获取 URL
从 2009 版本开始,优采云采集器 增强了 post采集 URL 的功能,这是一个非常好的消息,我们可以提交自定义数据并获得想要的结果。例如,我们使用搜索,查询一个关键字,并返回一些结果。我们将采集返回这些内容 URL,然后将其提取。
让我们通过程序自带的51job的网站采集来解释一下这个功能的使用。当我们得到相关的工作时,我们设置一个搜索然后提交它以获得我们需要的内容。现在,我们使用抓包工具(请参考抓包工具Fiddler的使用)在提交的时候抓取程序提交的数据,发现数据是提交到这个网页的。
这时候我们需要如图设置提交的URL,挖掘深度为1,然后填写提交的数据。我们可以发现,第一次提交的数据是这样的。
第二页最后一项是2,所以我们只需要在提交的时候改变最后一个参数就可以得到URL。填写时可以指定页数的范围。
下面介绍一个功能,一些朋友会用到。看上面大图的右下角,有一个随机取值。该函数用于处理此类页面。比如你给一个页面post一个参数,得到一个url列表页面,那么当你拿到第二个页面的时候,就需要从第一个列表页面传入一些值,这个随机值是用来获取一些参数的上一页的。下面我们举一个例子。看图,有兴趣的朋友可以自行研究。
测试了几页,看看结果是正确的。
规则下载