php抓取网页内容(php抓取网页内容可以通过代理模拟,手动提交“住宿的参数”)
优采云 发布时间: 2022-02-04 01:03php抓取网页内容(php抓取网页内容可以通过代理模拟,手动提交“住宿的参数”)
php抓取网页内容可以通过代理模拟,比如伪静态等、或者通过反向代理模拟登录、或者通过协议劫持等等。但代理模拟的效果有限,比如爬取优采云票,地图坐标显示有限、比如抓取广告等效果有限。反向代理的话,如果手动get返回的是http/1.1格式数据,抓取api限制在5000字节(参见抓包工具抓包规则),因此反向代理的效果还不错,爬取信息多、单页面内容多、用户选择性多。
但目前反向代理比较麻烦,一般使用反爬虫技术来提高爬取效率,大部分反爬虫工具会针对不同的抓取对象抓取不同的url路径,比如a抓取动态网页的html文件,b抓取静态网页的appid、appid等。如果appid是公共的,比如某购物网站,使用反向代理抓取反爬虫爬取不出来,直接使用appid抓取。如果使用struts2程序,那么所有的参数和模板加载都必须手动提交,比如在某旅游网站上要抓取住宿的内容,需要手动提交“住宿的参数”这样一个信息。
鉴于如此复杂的使用场景,php抓取远远满足不了需求,不如找个代理模拟爬虫,效果还不错。爬虫本身效果要求不高,完全可以解决一些基本要求,比如简单爬取、复杂爬取、分页爬取、查询爬取、抓取规则的编写。比如网站分页抓取在爬取一个特定链接时,完全可以抓取多页,比如下拉打开就是某个城市所有酒店。