php登录抓取网页指定内容是需要分布式爬虫的，我所知道

优采云发布时间: 2022-06-03 01:00

　　php登录抓取网页指定内容是需要分布式爬虫的，我所知道目前最简单的解决方案是requests库的urllib.request模块，

　　这是典型的爬虫问题。爬虫的问题是无法做到实时抓取，只能做到将获取的数据传输出去，这个过程就需要负责抓取的人才能查看其他人抓取的内容，比如你在抓取快手平台的内容的时候，就是抓取的人向快手发出了抓取的指令，让他的爬虫去抓取快手的用户内容，那么快手就会爬取那些符合快手条件的用户的内容来给你。所以爬虫就必须借助服务器的力量，也就是负责抓取的人。

　　但是无论是python还是requests，其实都是封装好的一个库。他有他的灵活性，但是底层逻辑上，如果把他当做一个功能去用还可以，但是当做一个框架去用就难以自行构建一个功能复杂的项目。只能抓取快手的某个页面内容，但是不能去生成数据文件。换句话说，当你想抓取某个网站的内容时，就需要这个网站是可用的，只要你确定这个网站是可用的，那么你就能根据页面的内容构建并调用一个能分发数据的服务，你可以在这个服务上调用其他网站的内容，从而抓取更多的数据。

　　这些我们在爬虫时常说的爬虫，其实都不是真正意义上的爬虫，一般意义上的网站抓取并不需要能分发任何内容，而是调用服务器响应的内容，直接拿去数据，这才是真正意义上的爬虫。我一直觉得让爬虫真正完成某项任务的目的，应该是类似科研python分析数据库内容分析出结果的debug的时候，而不是让爬虫做某个网站某个页面的爬取的时候。

0

2022-06-03

php登录抓取网页指定内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php登录抓取网页指定内容是需要分布式爬虫的，我所知道

0 个评论

发起人

AI时代内容工厂

php登录抓取网页指定内容是需要分布式爬虫的，我所知道

0 个评论

发起人

相关问题