ForeSpider数据采集软件的链接提取

优采云 发布时间: 2020-08-08 12:43

  ForeSpider数据采集软件的链接提取

  ForeSpider数据采集软件是一种通用的Internet数据采集软件. 该软件可以采集Internet上几乎所有的公共数据. 通过可视化的操作过程,可以从建立表,过滤,采集到存储的一步来完成. 同时,该软件具有内置的强大采集器脚本语言. 如果存在无法通过可视化方式采集的内容,则只需几行简单的代码即可实现功能强大的脚本采集.

  许多用户说可视化操作太简单了,因此您必须阅读软件脚本的教程,因此今天我将为您提供采集器脚本的链接提取教程,以满足更多用户的需求.

  此案例使用Dianping.com,应提取以下翻页链接.

  

  第一步是查看每个页面的链接地址是否正常.

  

  [第二页]

  

  [第三页]

  可以看出,只有每页链接地址的最后一个数字是不同的,这是相应的页码数. 我们可以通过拼接获得翻页的所有链接地址. 拼接第二页链接地址的脚本如下:

  

  第一行代码: 定义url类的变量u

  第二行代码: u.urlname是网页的链接地址,并为其分配了一个值

  第三行代码: u.tmplid是与此链接提取关联的模板ID,这里是翻页,所以关联您自己的模板

  第四行代码: 此链接提取相应的频道ID

  第五行代码: u.title是链接标题,为其分配一个值

  第六行代码: 将拼接的链接添加到最终结果中

  以上只是为了解释每一行代码的功能,仅获得指向第二页的链接,并且每个人的完整内容都在这里:

  

  

  通过FindClass从源代码中获取页面总数,然后使用for循环拼接每个页面的链接. 总共12行(包括两行注释)用于获取所需的链接. 很简单吗?希望每个人都能阅读帮助文档. 帮助文档中有很多问题的答案(秘密地告诉我,我经常遇到我不知道的事情,然后转到文档).

  ForeSpider是一款非常简单易用的通用数据采集软件. 它操作简单,功能强大,在保证采集速度的同时,完全可以满足企业用户的需求.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线