无规则采集器列表算法(无规则采集器列表算法与其他算法有所不同)

优采云 发布时间: 2022-03-15 01:05

  无规则采集器列表算法(无规则采集器列表算法与其他算法有所不同)

  无规则采集器列表算法与其他算法有所不同。主要从能采集到的数据类型、数据源来源等方面考虑算法。希望我的解答可以帮助到你。

  不了解python框架,但是我用的搜索技术,百度的高性能查询部分是利用了词典分词技术,

  无规则采集器,百度有一个比较牛逼的算法,利用人的经验来进行有效的搜索,这样一来所返回的页面就具有百度的搜索特性,只能看到正确的页面,

  这是我写的,有兴趣可以看下,

  不了解python框架,但是我自己的搜索过程也不按无规则,主要是基于百度的不友好搜索规则,如:如果百度没有提供指定关键词的查询结果(比如“专业”),我们通过搜索的结果一般不能判断搜索的关键词是否正确;如果百度提供了可以选择的词典(如“医院”),我们则可以进行搜索时用更精确的方式进行描述搜索。后来,虽然整理了两套属于我们自己的通用的搜索规则,但是在实际工作中,手头的资源不够,对结果和性能需求又较高,所以还在持续修改优化中。如果有兴趣,可以私信我交流。

  我采用的firlove'ssemanticanalysis

  无规则和有规则区别还是很大的,具体看你搜索词语是什么。有规则一般是按照相关度排序结果,有些可能是base分词有些可能是gbk编码,没有什么太大问题。比如说之前看到个链接是搜索小米的米手机的链接,可能用词是看到的两个相关词语:安卓和小米,大概率后者可能性更大。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线