人工智能的另一个意思——网页采集器的自动识别算法

优采云发布时间: 2021-07-05 01:01

　　网页采集器的自动识别算法一般是由两种：人肉采集的程序识别（人工智能领域的），视觉采集的精准度一般也是人肉采集的1/3，先针对性的判断关键词，然后用程序采集，以减少人肉的数量。比如网页如图所示，真正的事件还是：*敏*感*词*航空1303航班飞机坠毁，

　　自动采集，我用过一个爬虫：元龙翻译，输入题目，1.1秒自动检索你需要的答案。可以作为一个类比吧。比如你搜索"支付宝诈骗"，1秒钟后自动跳转到支付宝官网。

　　嗯...如果搜索条件固定（哪些句子搜索到），显然最快的方法就是人工进行筛选，那么也就是人工操作频率越高，覆盖所有的可能性，也就是所有的信息。这就是人工智能的另一个意思。算法如果不能实现的话...就不会成为某一种算法，而是一种方法...比如爬虫，算法固定的话，每天的精力应该都花在选取高质量的网页上面去吧。

　　比如提取主题名称...然后细分去找与主题名称相关性高的网页。ps：推荐一下西瓜数据这家比较好的爬虫公司，爬虫技术很好，当然这个只是我随便说说的，要实践还得靠自己多写爬虫才行。

　　uc在其官网上有提供一个爬虫“搜索唐僧取经相关信息”的功能。西瓜数据也有。

　　有一定的可能性。理论上讲，理解很多网页是有可能的。实际操作过程中，因为人情、由于年代的问题，基本不可能，除非是写个程序自动采集，然后进行相应的过滤。就如同打游戏一样，不可能人物都长得一样的。

0

2021-07-05

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

人工智能的另一个意思——网页采集器的自动识别算法

0 个评论

发起人

AI时代内容工厂

人工智能的另一个意思——网页采集器的自动识别算法

0 个评论

发起人

相关问题