php网页抓取工具(php网页抓取工具:javascriptpython速度差的原因通常有如下几个方面)

优采云 发布时间: 2021-11-11 13:06

  php网页抓取工具(php网页抓取工具:javascriptpython速度差的原因通常有如下几个方面)

  php网页抓取工具:javascriptpython网页抓取工具:python速度差的原因通常有如下几个方面,一是网页过大;二是网站关联程度不够,如页面文件就那么几页就会造成请求时间过长。

  定向爬取的结果不受控,它和网页自身格式有关,如果把响应内容单独抓取返回给用户显然要快一些,如果是全文定向,当然慢。定向爬取对网站结构有要求,对解析效率也要求不高,随便哪个都可以满足要求。但要抓全文得提取标题文本,把相关内容放到后面,再转换为单一的html文件(再转换算法可能要调整,以最小化读取压力)再加载,显然要更慢。据说php网页抓取和python网页抓取不是一个东西。

  据我所知,php网页抓取如果去除xml内容可以做到比javascript和css网页抓取快上10倍,但和xml数据没有正则对比,速度差异不好说,因为标准是一样的,javascript和css网页抓取用的就是不同的编程语言了,我知道有一些编程语言的读取速度也要快于javascript网页抓取,因为不同编程语言的处理格式是不一样的。

  但是有一点可以肯定,就是抓取耗时快慢,和内容格式没关系,和处理网页方式有关系,通常一个javascript网页抓取,实际上抓取到的都是javascript小文件,javascript小文件很小,几十k到百m左右,php网页抓取,抓取到的就是网页本身的内容,javascript网页抓取对图片的处理会相对麻烦些。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线