采集工具(基于新浪新闻的全网搜索【iLab开发】思路:与第一种方法)
优采云 发布时间: 2022-03-30 03:13采集工具(基于新浪新闻的全网搜索【iLab开发】思路:与第一种方法)
这两天一直在帮李老师做采集“GEM”主题相关的网络资料,顺便研究了几个不同的网络资料工具采集,包括两个iLab Lab开发的采集工具和两个网上知名的网络资料采集工具。
一、基于谷歌/百度等搜索引擎的全网搜索[iLab开发]
思路:这种方法的基本原理是使用一个通用的搜索引擎,采集它的检索结果。通常取其搜索结果的前 100 页。源码是通过抓取搜索结果条目的url得到的,通过文本提取算法得到原文。因此,一个通用搜索引擎的所有功能,如多重关键词、现场检索等,都可以在这个工具中体现出来。
优点:搜索结果覆盖范围广。
缺点:如果想采集更具体的话题信息,需要指向垂直专业的站点(site:);搜索引擎返回的结果没有固定格式的模板,很难采集全文,只能使用一般的文本提取算法,目前准确率可以达到75%。
二、基于新浪新闻的全网搜索[iLab开发]
思路:与第一种方法类似,这里是新浪的新闻搜索平台。其索引范围包括新浪自己的新闻和其他网站新闻,全文和标题字段均可搜索。抓取方法同上。
优点:由于数据源为新闻报道,数据结构比较规范,便于提取原文。
缺点:覆盖面不足,针对新闻数据。
经测试,新浪搜索平台在标题字段中检索,主题相关性更强,新浪自有新闻数据保存较好。因此,我们的工具选择了采集“新浪新闻+标题”的检索方式得到的结果。
三、优采云
很早以前就听说过这个采集工具,但是前两天实际使用的时候,发现它的功能真的很强大。几乎任何浏览器都可以访问信息采集,还集成了分词等功能。在做多级链接采集和分页采集的时候也很方便。网上有免费版可供下载,商业版功能和售后服务更完善。
思路:优采云采集的基本思路是url采集+内容模板设置。它还提供全面的数据保存和发布功能。
优点:可以是 采集 特定的网站 和板;完全符合。
缺点:了解了它的所有特性后,发现优采云在我需要的范围内没有缺点。当然,也不是真的没有问题,只是大部分功能都有了。它还提供了用于功能扩展的开发接口。商业软件不一样!
优采云软件的帮助文档中有相关教程下载,操作也很简单。
四、在线精神
也是一个知名的网络信息采集工具,我没用过,你可以去官网看看。
最后是前面提到的我们实验室的采集工具,有需要的可以向我索取。该工具还集成了其他文本分析功能。