采集的文章和关键词不符合导致的吧。。

优采云 发布时间: 2021-05-02 19:03

  采集的文章和关键词不符合导致的吧。。

  采集的文章和关键词不符合导致的吧。我试过好几次采集到不该采集的文章,有的甚至会采集到奇怪的广告等等。举例如下:1.文章关键词如果是“中医”不应该采集“中医养生”下面的文章。2.文章关键词如果是“农药”不应该采集“农药板块”下面的文章。3.文章关键词如果是“女科”不应该采集“女科方面”下面的文章。想取消采集这类文章的话,也是很简单的,进入搜索栏直接搜索“养生”,看看下面的第一个文章点不点,点点看看再决定。

  搜“养生”第一个,点进去看文章标题是啥,如果和你的文章类似就采集,不一样的话点一下,看点击率,看点击率没有效果果断取消。

  据我所知养生一类的小说标题大多写的浅显易懂比如大家都熟悉的"人养人更养"就可以采集

  取消搜索,过去关键词采集功能可以利用word2vec或者bilstm包建模,比如3万,大概率的是2万个词组成。包括楼上说的黄帝内经核心,大包小包3万词组成。然后进行向量化或聚类,一些非核心的关键词被排除掉就成了关键词库。但是你采集的词包含到了,肯定有词出现问题,会没法用。另外我没用过word2vec,可能还会出现下划线或者红字,而且尽管有关键词采集但是不清楚是否可以使用该方法,所以不能确定。

  取消了搜索就没办法用了,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线