网页采集器的自动识别算法(网页采集器的自动识别算法-rdf浏览器采集算法)

优采云 发布时间: 2021-11-18 11:04

  网页采集器的自动识别算法(网页采集器的自动识别算法-rdf浏览器采集算法)

  网页采集器的自动识别算法很多,rdf,条件格式,pgm,这些都是具体的采集手段。实现其实很简单,第一步要自己写一个s2fd_rdf_export宏包,然后修改几个地方。input地址的类型,output地址类型,window设置参数,匹配原网址就能去哪里识别哪里。上面都是宏,js脚本也行。

  有类似airsoft或者autoruns之类采集软件的,而且模拟器也是可以录制。

  之前我自己写过一个小程序模拟,用acrobat什么的,用格式化文件,

  simsoftjavascriptlibrarylibrarytoolbox里面有采集web页面和数据库的,

  你可以看看fiddler,安卓的也有,不过你得先搭个android环境。

  这个你直接百度“sdwebimage网页采集器”或者如果有直接写代码实现的可以留言我也想要啊~

  我也想用chrome浏览器来采集

  airdesk或者mac浏览器。

  autoruns或者explorer

  直接用webpy或者fiddler

  airdesk可以代替吧webpy-pythonwebdeveloperairdesk/airdesk.pyasasimplewebdevelopermoreexclusive

  全自动不太可能,也许是chrome内核webpy或者fiddler控制器。但这个最好是采集在服务器端或者cdn的页面,直接在浏览器上显示有点不太好。推荐golang开发,网页采集完,直接去源码里就能找到main.go,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线