采集文章自动发布(有一种鄙视链,大致可以用爬虫和nlp的关系来类比一下)

优采云 发布时间: 2021-12-07 17:17

  采集文章自动发布(有一种鄙视链,大致可以用爬虫和nlp的关系来类比一下)

  采集文章自动发布到keep_健身小课堂时,看到知乎上有这样一个问题:知乎-与世界分享你的知识、经验和见解在我看来,有一种鄙视链,大致可以用爬虫和nlp的关系来类比一下:webspider>>nlp>>机器学习?首先是webspider,这个没有太好说的,因为他们都是爬虫。nlp的爬虫依然是图灵机算法:一层一层抽取中文关键词+翻译文章。

  我们来看看爬虫部分:这里可以清楚的看到,webspider部分是无论如何都绕不开谷歌。说是抽取关键词,然后经过翻译后发布。这在大部分自然语言处理专业里都是可以被实现的,但目前数据需求稀缺,这么做确实可以有效节省时间。但是,以作为爬虫来说,翻译后的文章能否覆盖大部分的场景?这个点我们暂时不考虑。然后我们继续看一下nlp部分,nlp的爬虫相比webspider可谓翻天覆地。

  nlp在传统的信息抽取上有更加丰富的手段,如实体识别、情感分析等。那么我们就需要思考:如何构建一个更加强大的webspider,来搜索nlp部分的文章?说起webspider,不得不提到baidu。目前,大部分基于http+翻译的爬虫在构建的时候仍然处于瓶颈状态,比如baidu的场景太繁多了,要有多少翻译文章,每篇翻译文章可能都会有好几十篇。

  用爬虫,太浪费了。而nlp,相对于其他webspider有一个最大的优势,就是好几千篇文章可以一起发布。但是,人们构建爬虫的终极目标是把所有的nlp发文进行聚合,变成bigdata来处理。我觉得,bigdata应该算是一个技术密集型的过程,而非资金密集型。因此,今天的重点不是讨论webspider,而是讨论一下rtb模型。

  为什么爬虫不是rtb的全部?爬虫是完全按照webspider的思路去构建,但它也需要关键词处理以及翻译文章。这就与我们的终极目标是不一样的。我们的终极目标是完全用rtb思维去构建nlp爬虫,最终获得bigdata。rtb模型主要完成两个终极目标:搜索效率和搜索信息准确率。我们可以想象一下,如果单机我们爬不过12台,rtb的量级是千万级的机器,而且不限制数量的话。

  rtb的效率已经可以让任何的爬虫和nlp实现差不多了。然而,nlp的内容依然很多,差不多每年都要爬取几万篇。但是,这个效率与exotic只差四年的话,依然很难追上。为什么rtb模型不可行?因为rtb的内容远远超过了nlp。nlp的内容庞大,例如:公民搜索、国家图书馆使用的信息。这些内容除了关键词,还有作者信息,书名,卷轴这些信息要完整的展示给webspider,难度可想而知。这个时候可以看看2c的模型。在pc上,我们可以想象爬虫需要多少中文文章才能构。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线