php登录抓取网页指定内容是需要分布式爬虫的,我所知道

优采云 发布时间: 2022-06-03 01:00

  php登录抓取网页指定内容是需要分布式爬虫的,我所知道

  php登录抓取网页指定内容是需要分布式爬虫的,我所知道目前最简单的解决方案是requests库的urllib.request模块,

  这是典型的爬虫问题。爬虫的问题是无法做到实时抓取,只能做到将获取的数据传输出去,这个过程就需要负责抓取的人才能查看其他人抓取的内容,比如你在抓取快手平台的内容的时候,就是抓取的人向快手发出了抓取的指令,让他的爬虫去抓取快手的用户内容,那么快手就会爬取那些符合快手条件的用户的内容来给你。所以爬虫就必须借助服务器的力量,也就是负责抓取的人。

  但是无论是python还是requests,其实都是封装好的一个库。他有他的灵活性,但是底层逻辑上,如果把他当做一个功能去用还可以,但是当做一个框架去用就难以自行构建一个功能复杂的项目。只能抓取快手的某个页面内容,但是不能去生成数据文件。换句话说,当你想抓取某个网站的内容时,就需要这个网站是可用的,只要你确定这个网站是可用的,那么你就能根据页面的内容构建并调用一个能分发数据的服务,你可以在这个服务上调用其他网站的内容,从而抓取更多的数据。

  这些我们在爬虫时常说的爬虫,其实都不是真正意义上的爬虫,一般意义上的网站抓取并不需要能分发任何内容,而是调用服务器响应的内容,直接拿去数据,这才是真正意义上的爬虫。我一直觉得让爬虫真正完成某项任务的目的,应该是类似科研python分析数据库内容分析出结果的debug的时候,而不是让爬虫做某个网站某个页面的爬取的时候。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线