事实:采集的文章和关键词不符,看完你就知道怎么下手了
优采云 发布时间: 2022-12-25 11:22采集的文章和关键词不符,看完你就知道怎么下手了。
哈哈,因为jieba的处理的是token-classhash组合,所以文章不对,返回值就不对。
我们正在写jieba的源码学习中,用c++写的。真心不建议用cat+sort+distinct。简单些,上面的函数写起来也简单。我们是使用的是std::list类。jieba自带的sort和sort_distinct多了两个参数,sort_distinctt_sorted,t_sorted_list。完全可以对文章按标题排序。jieba这种把标题和实体拆分成二元组才做的方法简直就是bullshit。
楼主提问前可以尝试自己再思考一下么?这不是写代码,这是做产品。
遇到这种情况该怎么做?知乎已经不能问问题了么?
还是找学校反馈一下
换个网站搜索看看。
对这个问题,
这样的情况你可以这样考虑,首先词典搜索,文本不是字典格式的话可以尝试通过词典排序排除。好的方案肯定是最经济的。需要考虑的是这个文本是否有丰富的转换工具,