php可以抓取网页数据吗?-郭向立的回答
优采云 发布时间: 2022-08-29 04:05php可以抓取网页数据吗?-郭向立的回答
php可以抓取网页数据吗?-郭向立的回答,谷歌爬虫抓取网页都是过滤javascript代码的,先抓取html中的网页元素,如title,content。然后用tagul将此html文档过滤了去除该javascript代码。headers和post数据都过滤掉。所以这个爬虫原理就是爬取到html文档,然后清除掉tagul过滤掉的javascript代码,然后返回给服务器一个html字符串。
你可以考虑尝试用黑客手段给站点上锁。
搜狐、凤凰等大站网站都被封锁了。搜狐首页,还限制上爬虫、留邮箱等...凤凰、谷歌试了都是静态页面,都上不去,什么情况呢?暂且不说,可能是php执行速度太慢了吧。so如果想用php爬虫抓取web站点,可以看看easyui模板引擎怎么抓取html,写一个引擎抓。也不要执行javascript脚本,抓取速度慢的一塌糊涂,人家没有必要搭理。
php可以抓网页数据,谷歌学术上介绍了一些大牛的爬虫工具,详细说明了php在谷歌学术上有哪些应用。和php执行效率相比,无非是爬虫工具将数据转化为爬虫语言的形式返回给php函数,比如转化为php函数的形式。至于php抓取网页数据,其实只是抓取html或者javascript,并不直接获取该数据。这和php执行效率也没有关系。
可以尝试用uwsgi服务来处理服务器端php页面的script代码,加上浏览器的缓存机制。如果在国内的话(国内抓取速度太慢),使用阿里云ecs做个php的webserver,自己写个php服务器抓取页面,然后将数据封装到json格式。用json格式请求java和php的页面,效率还是比较快的,速度也没快到突破天际的那种程度。百度云欢迎来钓鱼。