ForeSpider数据采集软件的链接提取
优采云 发布时间: 2020-08-08 12:43ForeSpider数据采集软件的链接提取
ForeSpider数据采集软件是一种通用的Internet数据采集软件. 该软件可以采集Internet上几乎所有的公共数据. 通过可视化的操作过程,可以从建立表,过滤,采集到存储的一步来完成. 同时,该软件具有内置的强大采集器脚本语言. 如果存在无法通过可视化方式采集的内容,则只需几行简单的代码即可实现功能强大的脚本采集.
许多用户说可视化操作太简单了,因此您必须阅读软件脚本的教程,因此今天我将为您提供采集器脚本的链接提取教程,以满足更多用户的需求.
此案例使用Dianping.com,应提取以下翻页链接.
第一步是查看每个页面的链接地址是否正常.
[第二页]
[第三页]
可以看出,只有每页链接地址的最后一个数字是不同的,这是相应的页码数. 我们可以通过拼接获得翻页的所有链接地址. 拼接第二页链接地址的脚本如下:
第一行代码: 定义url类的变量u
第二行代码: u.urlname是网页的链接地址,并为其分配了一个值
第三行代码: u.tmplid是与此链接提取关联的模板ID,这里是翻页,所以关联您自己的模板
第四行代码: 此链接提取相应的频道ID
第五行代码: u.title是链接标题,为其分配一个值
第六行代码: 将拼接的链接添加到最终结果中
以上只是为了解释每一行代码的功能,仅获得指向第二页的链接,并且每个人的完整内容都在这里:
通过FindClass从源代码中获取页面总数,然后使用for循环拼接每个页面的链接. 总共12行(包括两行注释)用于获取所需的链接. 很简单吗?希望每个人都能阅读帮助文档. 帮助文档中有很多问题的答案(秘密地告诉我,我经常遇到我不知道的事情,然后转到文档).
ForeSpider是一款非常简单易用的通用数据采集软件. 它操作简单,功能强大,在保证采集速度的同时,完全可以满足企业用户的需求.