php可以抓取网页数据吗(php可以抓取网页数据吗?我的回答是什么?)

优采云 发布时间: 2021-09-22 00:06

  php可以抓取网页数据吗(php可以抓取网页数据吗?我的回答是什么?)

  php可以抓取网页数据吗?我的回答是:可以,不仅可以抓取网页数据,还可以抓取*敏*感*词*数据!网页抓取可以用php,*敏*感*词*抓取可以用python,nodejs,因为目前没有发现必须要用php,或者nodejs才能抓取到的网页数据。但是,在抓取数据之前一定要用程序把网页数据存放在文件里,比如blob。首先是在浏览器上输入网址,比如api/post/message.html:然后上传数据进行比对:上传成功之后就会生成一个文件,这个文件会包含网页中的整个网页地址,甚至包含参数。

  再用php进行抓取。抓取方法很简单,首先通过浏览器打开这个数据的文件,在这个文件中加入刚才保存的网页地址:接着再通过web服务器来抓取数据,比如微信服务器:最后通过http的请求方法,去调用服务器的js,会得到页面内容,从而形成我们的数据。那么,这个抓取需要多久?还是用浏览器打开这个数据文件,然后在浏览器打开抓取程序,但是不用调用微信的服务器,直接用浏览器打开得到:那么,这个抓取需要多少时间?自己测算的话,需要1000毫秒。

  查了一下百度,下载一个几十m的包大概用了60s。然后每天开启抓取一次服务器消耗1秒。那么,如果频繁地请求浏览器抓取服务器的话,同样速度要下降到3ms以内。所以,抓取这个网页需要10毫秒,实际抓取起来需要1m多一点一个页面。那么我的抓取效率大概是多少?百度有的算法是500kb/秒,简单来说,就是抓取10个网页,一共抓取到300个页面的数据。

  当然这么计算每天的抓取量肯定是无法达到这么大的数据量的。php抓取这个网页的效率是否高呢?比如:30秒一个页面的数据量。那么这个效率怎么来衡量呢?可以用一个叫做webthreads的method来衡量,那么直接用爬虫工具开启抓取服务器,然后开启很多个线程抓取页面即可。就算抓取速度在目前上会慢一些,在大部分人实际用户环境中,每天抓取这个网页的速度在200毫秒左右,相当于1000毫秒。

  那么php+python到底怎么样。首先,php的效率不能单看“抓取速度”这个值,因为抓取速度只是php并发抓取的一个很小的指标。看是否并发抓取,看的是php和其他程序能否“建立一个链接”,如果php线程很多,那么可以用超时函数。php做到并发抓取也没有很大的问题,只是耗时。像java来做到这点应该也比较有信心,毕竟java是标准的异步编程语言。

  但是要从速度,并发等各个方面优化php程序,对于大部分开发人员来说应该是非常难的。所以,在php并发抓取这一块,其实就是一个人的能力范围。只有在数据量很小,已经在db上可以做优化,并。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线