网页采集器的自动识别算法(网页采集器的自动识别算法是需要模型训练出来的)
优采云 发布时间: 2021-09-23 06:04网页采集器的自动识别算法(网页采集器的自动识别算法是需要模型训练出来的)
网页采集器的自动识别算法是需要模型训练出来的,没有模型训练模型的网页自动识别器是没有多大意义的。你可以在识别之前先加个关键词提示,输入一个关键词让它猜,当输入关键词提示后,就发现网页上有对应关键词的文字,可以再加入模型,将这个关键词的句子自动识别。我也是跟着我们公司的方法自己做的,输入一个关键词,会判断出我们想采集什么样的文字内容,我们定制了个关键词提示。
这样子的网页,识别网页是非常快的,即使识别不出来,也会自动提示出来。网页识别算法是研究发展很快的,基本都是跟着python生态圈里的各种库来做,比如selenium,比如geckodriver。专门做网页识别的网站识别算法能力,跟网页识别生态圈的识别算法,是很大差距的。
我用的是exuberevk中文识别库,实测准确率85%以上。打开exuberevk,选择要识别的网页,并启用自动识别。到自动识别文件夹下\_core\libs\book\_python_data\webdriver\_core\libs\autoit。py找到\lib/autoit。js\jsx。jsx解压,即可看到\lib/autoit。
js\script。jsx然后运行`reg_generate_nonlocal`,即可自动获取网页内容。`autoit。js`为自动识别的脚本文件,也可以使用`iostream`来导入jsx脚本。`jsx`只会执行一次,此时只会生成一个解压后的`index。js`的文件,如果想重新获取内容,可以运行`reg_generate_nonlocal`,此时会生成`regs。
js`。重新运行`reg_generate_nonlocal`,会再生成一个`regs。js`。文本的文件格式可以到`onlinejavascriptframeworkforpython`中查看。下载地址:#filenames/prefix/documents/autoit。js。