php可以抓取网页数据吗?-郭向立的回答

优采云发布时间: 2022-08-29 04:05

　　php可以抓取网页数据吗?-郭向立的回答，谷歌爬虫抓取网页都是过滤javascript代码的，先抓取html中的网页元素，如title,content。然后用tagul将此html文档过滤了去除该javascript代码。headers和post数据都过滤掉。所以这个爬虫原理就是爬取到html文档，然后清除掉tagul过滤掉的javascript代码，然后返回给服务器一个html字符串。

　　你可以考虑尝试用黑客手段给站点上锁。

　　搜狐、凤凰等大站网站都被封锁了。搜狐首页，还限制上爬虫、留邮箱等...凤凰、谷歌试了都是静态页面，都上不去，什么情况呢？暂且不说，可能是php执行速度太慢了吧。so如果想用php爬虫抓取web站点，可以看看easyui模板引擎怎么抓取html，写一个引擎抓。也不要执行javascript脚本，抓取速度慢的一塌糊涂，人家没有必要搭理。

　　php可以抓网页数据，谷歌学术上介绍了一些大牛的爬虫工具，详细说明了php在谷歌学术上有哪些应用。和php执行效率相比，无非是爬虫工具将数据转化为爬虫语言的形式返回给php函数，比如转化为php函数的形式。至于php抓取网页数据，其实只是抓取html或者javascript，并不直接获取该数据。这和php执行效率也没有关系。

　　可以尝试用uwsgi服务来处理服务器端php页面的script代码，加上浏览器的缓存机制。如果在国内的话（国内抓取速度太慢），使用阿里云ecs做个php的webserver，自己写个php服务器抓取页面，然后将数据封装到json格式。用json格式请求java和php的页面，效率还是比较快的，速度也没快到突破天际的那种程度。百度云欢迎来钓鱼。

0

2022-08-29

php可以抓取网页数据吗

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php可以抓取网页数据吗?-郭向立的回答

0 个评论

发起人