智能采集系统(智能采集系统如何实现全文采集?——短文本理论)
优采云 发布时间: 2021-11-07 02:03智能采集系统(智能采集系统如何实现全文采集?——短文本理论)
智能采集系统,可以通过寻找关键词或者短文本来实现精准采集,但是对应短文本表达的内容在传统采集系统中一般是大量词语拼凑而成,效率低下、不易于精准定位,而且它对原文本一般都要求比较多,新的系统没有解决这个问题,需要合理的规划流程和体系架构,来实现全文采集。
技术上做了很多尝试,
短文本理论上来说是比较容易转换成表格格式,编码结构不同也是一个原因。但是短文本很容易出现重复字段,这就导致比如百度这种搜索引擎,检索重复文本,采集下来的文本有时候就是毫无逻辑关系的,整体非常像在复制粘贴,没有一个比较好的体系来固定这种行为的效率。另外一个原因是,任何采集文本,其中可能出现n篇内容类似或者互通的内容,这种情况无法编码记录后统一处理,只能用这些内容做一个匹配,匹配程度无法量化,效率也低。反倒是不加区分的检索,简单词语匹配,在采集时相对而言效率比较高。
短文本定位问题主要是目标物品、交互操作等内容要做二次分析,往往用户搜索的是产品中的某一个具体的功能点,这里还涉及很多外部信息,分析的时候需要二次分析,比如有些公司的id会非常类似,用户设置完之后二次匹配在实际使用过程中,还是会有误差,会有多个用户身份在同一个服务器上搜同一个内容,或者出现非常接近的内容。