事实:采集的文章和关键词不符,看完你就知道怎么下手了

优采云 发布时间: 2022-12-25 11:22

  事实:采集的文章和关键词不符,看完你就知道怎么下手了

  采集的文章和关键词不符,看完你就知道怎么下手了。

  哈哈,因为jieba的处理的是token-classhash组合,所以文章不对,返回值就不对。

  

  我们正在写jieba的源码学习中,用c++写的。真心不建议用cat+sort+distinct。简单些,上面的函数写起来也简单。我们是使用的是std::list类。jieba自带的sort和sort_distinct多了两个参数,sort_distinctt_sorted,t_sorted_list。完全可以对文章按标题排序。jieba这种把标题和实体拆分成二元组才做的方法简直就是bullshit。

  楼主提问前可以尝试自己再思考一下么?这不是写代码,这是做产品。

  遇到这种情况该怎么做?知乎已经不能问问题了么?

  

  还是找学校反馈一下

  换个网站搜索看看。

  对这个问题,

  这样的情况你可以这样考虑,首先词典搜索,文本不是字典格式的话可以尝试通过词典排序排除。好的方案肯定是最经济的。需要考虑的是这个文本是否有丰富的转换工具,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线