php 正则抓取网页(php正则抓取网页资源，总要有库可以调用？)

优采云发布时间: 2022-03-09 07:03

　　php正则抓取网页资源，总要有库可以调用，那就安装一下吧，毕竟没见过别人直接用php抓取的。看官网说明，能打包成单文件版本，所以在项目中就可以直接引用了。不过直接把所有功能一个包出来，然后在项目根目录下新建一个类，利用类里面的方法再写几个新函数还是挺麻烦的。后来还是尝试了一下这种方法。手机党不方便打代码，简单讲一下思路。

　　如图所示。首先，利用arp协议记录对应ip地址，比如我记录了1.1.1.1.1，然后进行漫游到127.0.0.1中。然后，再用http接口，劫持这个中转服务器。具体怎么劫持？基于http协议看了下，基本都是提交邮箱地址、手机号等等，还有利用当前网络流量、地址包等等来放上所有参数，然后翻出当前不可爬取信息，直接返回结果就可以了。

　　恩，效果如下图所示：这种方法比利用http接口劫持访问用户名和密码劫持方便多了。如下图：有个比较坑的地方是，当你遍历真正访问的邮箱地址的时候，比如下面的243.197.7.104，默认是没有历史记录的，当然，如果你提交了邮箱地址、手机号，那没有历史记录也不奇怪。恩，具体怎么遍历呢？根据历史记录进行遍历，把你想要的历史记录信息放进中转页中。恩，效果如下图：。

　　虽然后端抓取不是我主业，但是看到前面的一些回答，感觉还是蛮赞同的，所以，我也来解释一下。楼上@黄老凯回答已经说得很好了，网页爬虫有几种常见的方式，手机端抓取，pc端抓取，页面抓取，浏览器抓取等等，不同的抓取方式，具体实现步骤也不同，但是逻辑大概一样，分为三步：抓取页面-封装源代码-解析源代码，下面就细讲讲。

　　android端的话，httpclient和webservice是比较流行的抓取方式，如果技术很强的话，可以自己写一个httpclient工具库，比如netty-middleware或者springcloudconnector，爬虫代码逻辑不复杂，所以这种方式大多数人都采用了，pc端有virectwait，qtcall等对付速度问题。

　　webservice就不用我说了吧。我下面来具体说说：1.android端的httpclient如果你像我一样，采用了第三方发包服务器，或者网站，我用过最大的包是腾讯的，那么有2个问题，1.大量的接口基本上是不开放的，我们根本不知道提供者最后在给出什么信息，2.封装和解析代码很多，内存占用大，对效率要求高，还容易发生死锁，所以，无论从效率还是安全性来看，大部分网站都是直接封装成httpclient了，并且分发到中转服务器上面，再利用命令行工具进行爬取。这种方式的话，需要一个支持命令行访问的包，很多公司自己搭建了一套包，不过，在我看。

0

2022-03-09

php 正则抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 正则抓取网页(php正则抓取网页资源，总要有库可以调用？)

0 个评论

发起人

AI时代内容工厂

php 正则 抓取网页(php正则抓取网页资源，总要有库可以调用？)

0 个评论

发起人

php 正则抓取网页(php正则抓取网页资源，总要有库可以调用？)