全网文章采集简单精准度还不高,只能帮你找到感兴趣的标题和文章内容
优采云 发布时间: 2021-04-13 22:13全网文章采集简单精准度还不高,只能帮你找到感兴趣的标题和文章内容
全网文章采集简单,精准度还不高,只能帮你找到感兴趣的标题和文章内容,有规律可循,而不是1000篇500个标题就能覆盖全网。而标题作为内容的窗口,如果能够恰当地提炼关键词,就能快速采集到感兴趣的内容,甚至产生一次性采集整个网站上所有文章内容的想法,再回头去修改或者修正文章。我正在组建短文本标题提炼算法模型,不知道能不能实现你说的效果。
本文将在[博文搜索]专栏目录下发布,文章包括nlp算法模型等干货,欢迎大家关注。获取电子版资料可以关注公众号“纯海数据”或者直接加我微信(world-datain)。后续添加微信更加方便:)。
关键词推荐要实现,关键点在于词向量。目前也有专门针对语义维度做推荐和分类的文章,比如:文本语义分析-yi2950的博客如果能将matlab、python、机器学习方法融合到实际业务当中,利用推荐算法来做关键词匹配、词向量深度学习是比较容易实现的。
不错的点子,我觉得你们很快就能看到。这种新的科研用的项目最好有科学上网软件:facebookai的paper,如果嫌麻烦,googlepage关键词+googlescholar也是不错的。如果他把标题都给你,你该怎么搞呢?搜索引擎、语义分析、机器学习。得给作者多交点钱吧。找不到人。