人工智能的另一个意思——网页采集器的自动识别算法

优采云 发布时间: 2021-07-05 01:01

  人工智能的另一个意思——网页采集器的自动识别算法

  网页采集器的自动识别算法一般是由两种:人肉采集的程序识别(人工智能领域的),视觉采集的精准度一般也是人肉采集的1/3,先针对性的判断关键词,然后用程序采集,以减少人肉的数量。比如网页如图所示,真正的事件还是:*敏*感*词*航空1303航班飞机坠毁,

  自动采集,我用过一个爬虫:元龙翻译,输入题目,1.1秒自动检索你需要的答案。可以作为一个类比吧。比如你搜索"支付宝诈骗",1秒钟后自动跳转到支付宝官网。

  嗯...如果搜索条件固定(哪些句子搜索到),显然最快的方法就是人工进行筛选,那么也就是人工操作频率越高,覆盖所有的可能性,也就是所有的信息。这就是人工智能的另一个意思。算法如果不能实现的话...就不会成为某一种算法,而是一种方法...比如爬虫,算法固定的话,每天的精力应该都花在选取高质量的网页上面去吧。

  比如提取主题名称...然后细分去找与主题名称相关性高的网页。ps:推荐一下西瓜数据这家比较好的爬虫公司,爬虫技术很好,当然这个只是我随便说说的,要实践还得靠自己多写爬虫才行。

  uc在其官网上有提供一个爬虫“搜索唐僧取经相关信息”的功能。西瓜数据也有。

  有一定的可能性。理论上讲,理解很多网页是有可能的。实际操作过程中,因为人情、由于年代的问题,基本不可能,除非是写个程序自动采集,然后进行相应的过滤。就如同打游戏一样,不可能人物都长得一样的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线