php多线程抓取网页(爬虫怎么从xml、html格式数据中提取你想要的数据)

优采云发布时间: 2021-10-28 03:04

　　php多线程抓取网页详情按照上面提示做一下

　　可以。爬虫怎么从xml、html格式数据中提取你想要的数据，是你要考虑的问题。你已经搞定了xml，而爬虫需要和后端、服务器多次交互。第一次登录，需要问到后端服务器一次，而后续就直接读取服务器返回给你的数据咯。多线程在这个基础上，作用不大，效率也不好，你直接用非阻塞io就可以了。—你想多线程做详情分析，我觉得很难。爬虫只有单线程模式。

　　可以，但是这个操作跟你后端基本无关了，爬虫一般用c++或者python，需要一个稳定的数据库管理系统，至于多线程，肯定是多个独立线程在提交任务来，处理上，后端肯定是一个处理线程过来处理，无非在于html文件的解析和初始化数据提交而已，至于后端是否需要支持多线程，看后端提供的api。而且多线程抓取数据，你认为很难，其实也是可以做到的，就是再给抓取的速度会影响，毕竟抓取速度快，还需要靠数据库等。

　　之前的这个提问：一个爬虫是应该单线程还是多线程？

　　抓取页面网页肯定是可以的,但是api提供的xmlhttprequestapi设置的服务方法并不会进行多线程。你是要提供可多线程的api吗?-你要明白提供多线程的api并不是说把各个线程纳入系统中,而是默认所有的进程,包括所有能通过api操作页面的进程统一由一个privulsion(保存(页面的,数据库的)等等进程,unionresources)运行。

　　这样呢就是通过multicast库实现,你可以通过api来分析页面,但是你无法通过api操作数据库,因为他通过multicast来分析页面。否则,所有爬虫可以自发共享一个privulsion了。

0

2021-10-28

php多线程抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php多线程抓取网页(爬虫怎么从xml、html格式数据中提取你想要的数据)

0 个评论

发起人