网页采集器的自动识别算法(网页采集器的自动识别算法是需要模型训练出来的)

优采云发布时间: 2021-09-23 06:04

　　网页采集器的自动识别算法是需要模型训练出来的，没有模型训练模型的网页自动识别器是没有多大意义的。你可以在识别之前先加个关键词提示，输入一个关键词让它猜，当输入关键词提示后，就发现网页上有对应关键词的文字，可以再加入模型，将这个关键词的句子自动识别。我也是跟着我们公司的方法自己做的，输入一个关键词，会判断出我们想采集什么样的文字内容，我们定制了个关键词提示。

　　这样子的网页，识别网页是非常快的，即使识别不出来，也会自动提示出来。网页识别算法是研究发展很快的，基本都是跟着python生态圈里的各种库来做，比如selenium，比如geckodriver。专门做网页识别的网站识别算法能力，跟网页识别生态圈的识别算法，是很大差距的。

　　我用的是exuberevk中文识别库,实测准确率85%以上。打开exuberevk,选择要识别的网页,并启用自动识别。到自动识别文件夹下\_core\libs\book\_python_data\webdriver\_core\libs\autoit。py找到\lib/autoit。js\jsx。jsx解压,即可看到\lib/autoit。

　　js\script。jsx然后运行`reg_generate_nonlocal`,即可自动获取网页内容。`autoit。js`为自动识别的脚本文件,也可以使用`iostream`来导入jsx脚本。`jsx`只会执行一次,此时只会生成一个解压后的`index。js`的文件,如果想重新获取内容,可以运行`reg_generate_nonlocal`,此时会生成`regs。

　　js`。重新运行`reg_generate_nonlocal`,会再生成一个`regs。js`。文本的文件格式可以到`onlinejavascriptframeworkforpython`中查看。下载地址:#filenames/prefix/documents/autoit。js。

0

2021-09-23

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法是需要模型训练出来的)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法是需要模型训练出来的)

0 个评论

发起人

相关问题