网页采集器的自动识别算法，很简单，主要有两步

优采云发布时间: 2022-08-21 02:02

　　网页采集器的自动识别算法，很简单，主要有两步，一是自己构建网页规则，二是进行扫描。1、自己构建网页规则的话，楼主可以考虑视频采集工具，比如说音视频采集工具m3u8，这个工具能在手机端简单直观地构建一个可用于视频采集的工程，例如下面的样本：知乎-随时随地分享身边的新鲜事2、进行扫描的话，可以尝试在手机上进行识别，例如通过利用一些无线wifi工具，例如雷达网络、360随身wifi、联动百度网络中的无线网络抓取手机上的wifi热点，然后用pc上的工具去抓取指定的服务器信息。

　　你说的是一个app应用，通过人机交互完成点击，发起连接，这是pc的思路，你说的这个app目前不存在。但是原理是一样的，道理都是先抓http包，拿到每个包的url（或者网址），然后根据url找到指定网站的入口，如：百度抓baiduspider。

　　尝试回答：1.采集方式大致分两种，一种是通过pc，如果遇到https需要使用ssl证书的话，即使如此，web服务器也是可以知道你是通过什么方式抓取的。2.另一种方式是nat方式，所有的目标网址被转发到，你所说的“网站的抓取脚本”所发起的的连接，或者目标站点的ip地址。（应该是这样吧。我是手机搜搜抓取spider，不知道是不是这个意思）。

0

2022-08-21

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法，很简单，主要有两步

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法，很简单，主要有两步

0 个评论

发起人

相关问题