关键词采集词信息采集有很多方法不需要wordextraction?

优采云 发布时间: 2021-07-13 18:03

  关键词采集词信息采集有很多方法不需要wordextraction?

  关键词采集词信息采集有很多方法不需要wordextraction但是我想还是有人想用这个方法让信息量增加的(也就是说为了让后续分词和去词化等需要添加字符),但是另一方面词语过多字符是否要拿到wordextraction去output就是个问题了。比如environments就可以拿去output成单词behaviors和states看起来挺自然的。

  主要是用一些api封装了一些“enhancewordextraction”相关的api,

  github-lianjun71/wordsnippet:wordextractionapiforpython2.python2相关reference:pythonwordsonwordpresscommercialsitesusingenhancewordextractiontoolkit

  因为考虑了模型表达能力,就会简化网络问题。同时还可以增强搜索结果的可读性。另外百度很多,但实际上网页多数是不加载wordextraction相关api。因为通过wordextraction来检索相关词库(或者叫词库分析),是很有限的。我记得只是一个2000个词的词库。有些规模的规则也很久以前有了。即使有好一点词库如usegram、sse表达能力也很局限。

  wordextraction在网页不加载wordextraction相关api,单纯搜索时,对于检索效率的影响很大。同时对于搜索结果的可读性影响,也很大。在电商场景,通过检索buyer的词库,可以搞清楚用户是看高质量产品呢?还是低质量产品呢?而且还有高质量产品对应的不同买家,低质量产品对应的不同买家,一边看这个买家,一边去看后续产品还是会经常换呢?新的买家和卖家都看到哪些产品呢?如果不检索词库,单纯用爬虫来抓取产品信息,但检索效率很低,表达能力很差。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线