php抓取网页内容(php抓取网页内容并解析并进行下载的是一个轻量级的php程序)

优采云发布时间: 2021-10-11 14:14

　　php抓取网页内容并解析并进行下载的是一个轻量级的php程序而已，所以效率非常慢，但是问题不在php，而在程序本身。

　　因为你用的程序，或者引擎不好。scrapy，pyquery这种例外。至于安装方法的话，因为才发现有lxml等等第三方库，所以你不得不想办法去解决这些问题。

　　是你的程序不好，性能慢。你下载的网页，不论多大，肯定都是从一个txt，一个txt，一个txt这样来下载过来的，然后编码错误。python解析文件一般有三种方式，一个是py2exe，一个是scrapy，一个是sphinx。你看的例子，一定是非爬虫程序，没用lxml等任何库。先查看这个网页是不是txt格式，不是的话，用scrapy和pyquery，解析出来，用python下载。

　　问题估计出在数据格式上python支持xml、json、js三种数据格式，同时解析语言是python。所以你下载完放到一个setup.py文件里，

　　shell很容易搞定的，我看到标题第一句就到了自己技术层面，应该是漏了。

　　首先stackoverflow曾经有过一篇关于python对html文件的解析速度的研究，可以自己搜索下原文：-time-comparison-of-scrapy/其次python可以通过selenium(webdriver)访问浏览器，实现基于浏览器执行脚本，比如用户在页面上停留了很久并且打开了一个webapp，这时候处理就是selenium在处理了。

0

2021-10-11

php抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页内容(php抓取网页内容并解析并进行下载的是一个轻量级的php程序)

0 个评论

发起人

AI时代内容工厂

php抓取网页内容(php抓取网页内容并解析并进行下载的是一个轻量级的php程序)

0 个评论

发起人

相关问题