采集文章自动发布(有一种鄙视链，大致可以用爬虫和nlp的关系来类比一下)

优采云发布时间: 2021-12-07 17:17

　　采集文章自动发布到keep_健身小课堂时，看到知乎上有这样一个问题：知乎-与世界分享你的知识、经验和见解在我看来，有一种鄙视链，大致可以用爬虫和nlp的关系来类比一下：webspider>>nlp>>机器学习？首先是webspider，这个没有太好说的，因为他们都是爬虫。nlp的爬虫依然是图灵机算法：一层一层抽取中文关键词+翻译文章。

　　我们来看看爬虫部分：这里可以清楚的看到，webspider部分是无论如何都绕不开谷歌。说是抽取关键词，然后经过翻译后发布。这在大部分自然语言处理专业里都是可以被实现的，但目前数据需求稀缺，这么做确实可以有效节省时间。但是，以作为爬虫来说，翻译后的文章能否覆盖大部分的场景？这个点我们暂时不考虑。然后我们继续看一下nlp部分，nlp的爬虫相比webspider可谓翻天覆地。

　　nlp在传统的信息抽取上有更加丰富的手段，如实体识别、情感分析等。那么我们就需要思考：如何构建一个更加强大的webspider，来搜索nlp部分的文章？说起webspider，不得不提到baidu。目前，大部分基于http+翻译的爬虫在构建的时候仍然处于瓶颈状态，比如baidu的场景太繁多了，要有多少翻译文章，每篇翻译文章可能都会有好几十篇。

　　用爬虫，太浪费了。而nlp，相对于其他webspider有一个最大的优势，就是好几千篇文章可以一起发布。但是，人们构建爬虫的终极目标是把所有的nlp发文进行聚合，变成bigdata来处理。我觉得，bigdata应该算是一个技术密集型的过程，而非资金密集型。因此，今天的重点不是讨论webspider，而是讨论一下rtb模型。

　　为什么爬虫不是rtb的全部？爬虫是完全按照webspider的思路去构建，但它也需要关键词处理以及翻译文章。这就与我们的终极目标是不一样的。我们的终极目标是完全用rtb思维去构建nlp爬虫，最终获得bigdata。rtb模型主要完成两个终极目标：搜索效率和搜索信息准确率。我们可以想象一下，如果单机我们爬不过12台，rtb的量级是千万级的机器，而且不限制数量的话。

　　rtb的效率已经可以让任何的爬虫和nlp实现差不多了。然而，nlp的内容依然很多，差不多每年都要爬取几万篇。但是，这个效率与exotic只差四年的话，依然很难追上。为什么rtb模型不可行？因为rtb的内容远远超过了nlp。nlp的内容庞大，例如：公民搜索、国家图书馆使用的信息。这些内容除了关键词，还有作者信息，书名，卷轴这些信息要完整的展示给webspider，难度可想而知。这个时候可以看看2c的模型。在pc上，我们可以想象爬虫需要多少中文文章才能构。

0

2021-12-07

采集文章自动发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集文章自动发布(有一种鄙视链，大致可以用爬虫和nlp的关系来类比一下)

0 个评论

发起人

AI时代内容工厂

采集文章自动发布(有一种鄙视链，大致可以用爬虫和nlp的关系来类比一下)

0 个评论

发起人

相关问题