php多线程抓取网页(爬虫怎么从xml、html格式数据中提取你想要的数据)

优采云 发布时间: 2021-10-28 03:04

  php多线程抓取网页(爬虫怎么从xml、html格式数据中提取你想要的数据)

  php多线程抓取网页详情按照上面提示做一下

  可以。爬虫怎么从xml、html格式数据中提取你想要的数据,是你要考虑的问题。你已经搞定了xml,而爬虫需要和后端、服务器多次交互。第一次登录,需要问到后端服务器一次,而后续就直接读取服务器返回给你的数据咯。多线程在这个基础上,作用不大,效率也不好,你直接用非阻塞io就可以了。—你想多线程做详情分析,我觉得很难。爬虫只有单线程模式。

  可以,但是这个操作跟你后端基本无关了,爬虫一般用c++或者python,需要一个稳定的数据库管理系统,至于多线程,肯定是多个独立线程在提交任务来,处理上,后端肯定是一个处理线程过来处理,无非在于html文件的解析和初始化数据提交而已,至于后端是否需要支持多线程,看后端提供的api。而且多线程抓取数据,你认为很难,其实也是可以做到的,就是再给抓取的速度会影响,毕竟抓取速度快,还需要靠数据库等。

  之前的这个提问:一个爬虫是应该单线程还是多线程?

  抓取页面网页肯定是可以的,但是api提供的xmlhttprequestapi设置的服务方法并不会进行多线程。你是要提供可多线程的api吗?-你要明白提供多线程的api并不是说把各个线程纳入系统中,而是默认所有的进程,包括所有能通过api操作页面的进程统一由一个privulsion(保存(页面的,数据库的)等等进程,unionresources)运行。

  这样呢就是通过multicast库实现,你可以通过api来分析页面,但是你无法通过api操作数据库,因为他通过multicast来分析页面。否则,所有爬虫可以自发共享一个privulsion了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线