php抓取网页内容(php抓取网页内容并解析并进行下载的是一个轻量级的php程序)

优采云 发布时间: 2021-10-11 14:14

  php抓取网页内容(php抓取网页内容并解析并进行下载的是一个轻量级的php程序)

  php抓取网页内容并解析并进行下载的是一个轻量级的php程序而已,所以效率非常慢,但是问题不在php,而在程序本身。

  因为你用的程序,或者引擎不好。scrapy,pyquery这种例外。至于安装方法的话,因为才发现有lxml等等第三方库,所以你不得不想办法去解决这些问题。

  是你的程序不好,性能慢。你下载的网页,不论多大,肯定都是从一个txt,一个txt,一个txt这样来下载过来的,然后编码错误。python解析文件一般有三种方式,一个是py2exe,一个是scrapy,一个是sphinx。你看的例子,一定是非爬虫程序,没用lxml等任何库。先查看这个网页是不是txt格式,不是的话,用scrapy和pyquery,解析出来,用python下载。

  问题估计出在数据格式上python支持xml、json、js三种数据格式,同时解析语言是python。所以你下载完放到一个setup.py文件里,

  shell很容易搞定的,我看到标题第一句就到了自己技术层面,应该是漏了。

  首先stackoverflow曾经有过一篇关于python对html文件的解析速度的研究,可以自己搜索下原文:-time-comparison-of-scrapy/其次python可以通过selenium(webdriver)访问浏览器,实现基于浏览器执行脚本,比如用户在页面上停留了很久并且打开了一个webapp,这时候处理就是selenium在处理了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线