采集内容插入词库,然后词库匹配出来的是词组。
优采云 发布时间: 2021-08-17 01:03采集内容插入词库,然后词库匹配出来的是词组。
采集内容插入词库,然后词库匹配出来的是词组。根据词库匹配出来的词组数据制作词汇表。当新建查询时会自动匹配匹配条件。通过源词表查询频率,例如你要从词汇表的6000个词语中匹配出一个如learn这个词。匹配成功后会将匹配的关键词用查询频率字段存入词汇表中。词汇表中根据频率排序,词语表中增加新词。
这个问题困扰了我很久,首先我们要对现有词库对查询,然后分词得到词频,词频基本可以通过一定方法实现,然后再结合语料库进行人工抽取;机器方面,语料库抽取文法分析,词频抽取方法,抽出关键词,词频匹配就可以了。
用zhinenglibrary可以每个接口对查询用户请求做异常处理,然后一样的查询需要统计查询次数就知道请求频率如何。当然数据结构跟字典最好不要动,异常会冲销误传。其实有专门查询词库的库,也是可以的。
没想到天涯上也有这样的问题。一种方法是整合商业字典(ey字典,ymc-cn,dmt,cdc等),接入腾讯问答(qq签名搜索),按照字典的评分来查询,但缺点是数据全,但也有缺点,大数据用户不一定有兴趣查索商业字典,同时使用前需要先自己写好查询词库接口,这样压力大;还有一种方法是按照外部字典,这个需要合作,按照外部字典查询的方法很多,我知道也有几个开源的,字典质量不错,但需要系统开发支持,得需要合作者不断维护,而且开源的需要xml编码支持。
腾讯问答也支持百度搜索。并且pv很高,日ip很高。对于内容无关联的词,一种方法,是先统计抓取排序前1000名内容和那个词分布,然后按照公司排序抓取,这个我是用这种方法,目前在qq的社区论坛也可以做到这个。当然用百度搜索也可以,效果非常好。