网页采集器的自动识别算法主要与下面两方面有关

优采云发布时间: 2022-07-21 07:02

　　网页采集器的自动识别算法主要与下面两方面有关：

　　1、采集网页的规范性

　　2、网页采集器自身的识别能力。

　　1、你是采集这个网站的哪个页面？不同的页面采集方法、采集难度是不同的。

　　2、你所需要的采集页面的规格，如分类、标题、作者等基本信息。还有目录、文章体积、带宽、稳定性等诸多因素。

　　类似于图片抓取+文本抓取+定位，最终可能算法会出来一种，自动标记文本的一种技术。

　　看到有答案提到网页采集器了，如果你用的是chrome或firefox会发现可以设置开发者模式，开发者选项里有设置具体标识方法。

　　传说中的定位，然后顺着定位的位置爬，或者通过字体颜色区分文本。

　　自动标记文本，如：html文件本身可以实现文本区隔处理，通过标记文本能实现网页的分类标识，自动标记文本可以将自己不需要的文本省略掉，如：一篇文章，为了不把文章内容标记上，就可以单独划出标记文本块，这样能够实现结构文本自动标记，那么看下面这个例子：e:\sub\textj|osomecontentselection\seafieldsomeheadernullnewaddressidnewexpirestheyhlink\sinclairsomeitemsupdatecentralsometextsomeitemshrefsomefilessomewordsomefiltersitemsexistexitexititokokandyoucanbeathererightbeforebeforeleftrightpastelet'sremovepastepastetocopycopytocopytocopytocopytosavesavetosavetosavetosavetosaveto。

0

2022-07-21

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法主要与下面两方面有关

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法主要与下面两方面有关

0 个评论

发起人

相关问题