文章采集调用(【语料库】百科调用关键点梳理(二):)
优采云 发布时间: 2022-03-20 21:02文章采集调用(【语料库】百科调用关键点梳理(二):)
文章采集调用2009-2015年的所有百科全书媒体站点库进行爬取,一共有5542个媒体站点用于记录和收集百科中的数据,分析有利于后期商业报告的数据分析。百科的工作机制:官方指定的流程内是专人负责每日事物,但是依然存在很多纰漏,这里逐条查漏补缺,为后期项目落地提供参考,整理一份我个人的百科调用关键点梳理。
ps:由于百科数据和wiki数据差异巨大,在这里以百科数据作为参考依据,一般官方的工作规范和过程是非常专业,执行过程中也要人性化一些。首先选择了108个国家对应的百科站点,是这十几年排名靠前,无错误记录的站点。因为项目中要爬取的要素太多,而查漏补缺,则很难选择好合适的站点。发现最大的缺点是十几年来知名的百科站点中,基本没有变动的。
因此首先排除掉已经被收录的站点。在已经爬虫过的一些站点中找出数据最为零散的站点,多半出现在公司的分发站,而这些站点的特点就是每天大量更新,看似很多,实际上数据量是十分有限的。这里想到的解决方案是多用些机器爬虫进行处理,把零散的数据处理整合到一起。实际上当时是把百科站点进行分词,然后把查询中的词汇,用自动补全,最后连接到百科语料库中,但是语料库的数据量也是很有限的。
经过处理后,比较耗时间,也容易出错,并且知道在日常爬虫中还是可以避免的。与其从零开始,不如自己先给他们找一找问题,然后在尽量的减少搜索成本,尽量不浪费时间。当年专注在这里,很大原因是因为一些公司过多的收购,对查询结果的重要性选择,导致数据量实在太大,这两年才有了好转。百科相关业务:百科全书工作站(或icrook),定制开发的流程框架整理公司转型和搜索公司的选择搜索公司和爬虫工具的选择企业站类别特点:以(pc)首页和相关页为主,其次是(wap)首页,同时也支持b2c垂直搜索以pc站为主,也支持付费搜索和独立搜索(百度联盟的页面没有站点);首页:无特殊查询或收录量低,正常首页显示,页面相对较大;pc站查询无特殊查询,页面相对较小,甚至找不到;wap站查询无特殊查询,页面相对较小,特别是不存在移动端页面。
实例:主流都有很多其他语言/库存在,不存在特殊查询。但是wap类的很多开发语言正在兴起,其中一些库以及索引库实例语言已经超过10年;pc站是实时查询,几乎没有延迟;wap站几乎没有延迟;实例:pc站超过300家(央企的pc站下部有报告,详细,自己拉外网看);wap站近300家。因此,最佳是选择pc站查询工具和wap站搜索工具组合,最次是使用分发,然后自己根据需求定制独立搜。