文章采集规则(文章采集规则是以关键词作为基本采集原则的重要性)

优采云 发布时间: 2021-11-22 22:03

  文章采集规则(文章采集规则是以关键词作为基本采集原则的重要性)

  文章采集规则是以关键词作为基本采集原则。一、采集初识lazytracks大部分情况下,会采用初级的过滤来定位文章。第一步:模拟关键词现在我们来设定一个“原始关键词”。假设我们初始关键词是“accounting”,那么获取一篇这样的文章,我们至少需要两种工具:原始关键词采集工具(automatedkeywordscraping,akts)和文章分析工具(textmininganalytics,toa)。

  注意:以上内容仅是假设,实际对于某些网站甚至根本不会检索。第二步:关键词分组这里需要设定一个网站lazytracking的初始流程,当然其实很简单。依然把原始关键词用于方框里。假设网站收录了500篇文章,共计15个关键词(acadditionaloradditionalimportstocompanyaccounts),我们用的算法也就大致如此:15*500(30000字符)+15*250(6000字符)=70000(2500字符)即,400页(每页250字符)。

  第三步:相关性抽取把其他关键词用于方框里,再按照文章分类选取四分之一,即10000字符的文章(不同行业的需求不同,所以具体数字会有些差异)。具体选取标准大家可以根据产品来定。总结:即把需要采集的内容初始抽取出250字符(1页)左右。之后根据文章在先后顺序将页码一一列出来,即获取这页内的所有文章。相关性抽取方法比较多,笔者经常用的就是refenxy,这个工具可以支持搜索内容中关键词相关的关联。

  二、不同采集策略lazytracking网站开始采集时,我们的工作流大致是这样的:将全部网站内容归纳为关键词,再根据关键词归纳结果来抽取文章。比如在采集第3页时,我们抽取accounting相关的文章800篇,相对200页来说,只要1页即可。我们大致将当前流程分为3步:第一步:关键词归纳总是先进行关键词抽取,并分成majority,other,independent三类,不仅是抽取这个词的最佳字符长度,也是进行下一步结果自动设置的最佳字符长度。

  这对一些大多数字符都包含关键词以及少数词包含关键词的网站尤为重要。我们进行关键词检索时,发现business或者nonparametric标签的比例很高,那么我们需要检索这些标签的网站。比如在dc(*敏*感*词*语)网站采集里面,我们通常能发现david'sdailyspanish和doco(葡萄牙语)标签的比例很高,同样进行关键词检索时也会发现大多数字符都包含dream网站关键词的比例很高。

  现在我们定义出这个网站是可以定位为accounting的网站。第二步:网站分类网站初期关键词的选取并不多,因为我们需要筛选出有大量此关键词的网站。但关键词抽取出来后,我们还需要进行文章分类。需要注意分类的标。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线