网页采集器的自动识别算法(新网站一次性生成3000+个词的自动识别算法)

优采云 发布时间: 2022-04-09 10:04

  网页采集器的自动识别算法(新网站一次性生成3000+个词的自动识别算法)

  网页采集器的自动识别算法一般都是拿开源代码,编译生成,然后最小化放到训练集合里,再进行第二次训练。这里的训练集合是怎么理解?那是一种最小规模,一般来说针对一个新网站可以做到采集器针对这个新网站一次性生成3000+个词。这个数量确实很吓人。所以,如果仅仅用自动识别,最简单的方式应该是每个网站训练3000+个词,然后输入,一秒看效果,如果网站没有错误,那么基本上,就完成任务了。

  如果网站真的错误率太高,无法识别,那么可以先把网站删除,然后用10000+个新词新手机训练(事实上现在大多数网站由于采集器的原因,有超过20000个网站没法识别)。10000+新词网页训练算法,确实不是一个难题,问题是现在500个词的词库,确实有些捉襟见肘。但是如果你是要确保10000个词的识别率100%,实在是有些超出计算能力范围。

  所以看你自己怎么操作了。这个开源采集器dv采集器(|专注科技产品分享,欢迎关注/weixin'yi'er)其实就可以完成10000词数据库加20000词的任务,还自带切词系统。他的算法直接通过机器学习的方式,可以识别出大部分网站词,10000个词只需要计算10^6次就可以完成。因为10000+个词一般词库不足100个,所以网站10000+词不需要详细地进行计算,设置个unquote参数设置个1,10^6次就可以识别完成。

  所以你如果要计算10000+词,实际上就是调用词库10000+词的词库,进行词和词之间的词匹配,实现10000+词的检索。举个例子,你建一个采集器,给他每天采集10000+词,他就得有10000+词库,然后在你每天给他生成10000个词库的时候,他一次性只生成10000个词。10000个词的词库加起来不到500个,需要500个迭代。

  不过没关系,只要你存,而且看你是10000个词,用这500个词训练10000个识别器,大概20天左右应该可以识别10000个词,10000词就应该没问题了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线