网站内容采集器工具包MetaSeeker增加自定义XPath规则的功能

优采云发布时间: 2021-05-06 02:13

　　网站 Content 采集器 Toolkit MetaSeeker添加了自版本V 4. 0. 0开始自定义XPath规则的功能，该版本完全独立于原创程序。网站 Content 采集 Rules The补充和增强能力。但是，如果自定义XPath表达式使用字符串处理功能采集文本内容，则会遇到错误。

　　场景

　　例如，使用XPath函数substring-after（）等，生成的网站内容采集指令文件是正常的，也就是说，Web采集器的操作和网站内容采集器 DataScraper正常。用户可以准确，大量地采集网站个内容。但是，MetaStudio生成的信息结构描述文件不正确，并且用户输入的用户定义XPath表达式被错误地视为DOM节点定位表达式。结果是网站内容采集规则*敏*感*词*MetaStudio无法重写先前的内容。生成的信息结构已加载到工作台上以进行修改和编辑。花费数年采集网站内容并锁定目标网站，更改页面结构的用户会感到使用不便。

　　原因

　　并非总是遇到此错误，因为在大多数情况下，用户定义的XPath表达式用于某个DOM元素节点的内容，因此不会遇到此错误。但是，某些熟练的用户可能会使用它。自定义XPath表达式处理网站文本内容有点像使用正则表达式来匹配文本和采集文本内容片段。此时，XPath表达式未找到某个DOM元素节点，而是直接对字符串进行数据处理，因此会遇到该错误。

　　更正方法

　　网站 Content 采集器工具包MetaSeeker已解决了V 4. 1. 1版本中的此错误。加载由软件的早期版本生成的信息结构时，如果遇到由上述错误错误生成的信息结构内容，将弹出一个编辑框，允许用户修改自定义XPath表达式，并将其修改为用于定位DOM节点的表达式。这样，MetaStudio可以成功加载信息结构以进行编辑。当信息结构重新上传到MetaCamp服务器时，它将用新的正确的信息结构描述文件替换前一个。

　　高级使用技巧

　　网站 Content 采集器工具包MetaSeekerV 4. 1. 1版本也得到了增强，可以将自定义XPath表达式分为两类：

　　默认情况下，用户定义的XPath表达式仅用于采集网站的内容，这对于公共用户来说很方便。此时，将计算DOM节点定位规则。对于熟练的用户，可以选择是否定义另一个专门用于定位DOM节点的XPath，而不是使用数据映射关系来计算定位规则，以实现一些精确的定位，例如根据特定的文本内容进行定位在网站上。

　　‹如何获取/提取QQ群聊历史记录的内容。无需网络采集器。破解版下载：MetaSeeker正版免费›

0

2021-05-06

网站内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集器工具包MetaSeeker增加自定义XPath规则的功能

0 个评论

发起人

AI时代内容工厂

网站内容采集器工具包MetaSeeker增加自定义XPath规则的功能

0 个评论

发起人

相关问题