php 正则 抓取网页(php正则抓取网页信息说明你的网页爬虫已经具备基本能力)
优采云 发布时间: 2021-11-01 14:04php 正则 抓取网页(php正则抓取网页信息说明你的网页爬虫已经具备基本能力)
php正则抓取网页信息说明你的网页爬虫已经具备基本的能力,这时候你已经成功了第一步。不知道你是如何做的,对此我建议先深入学习php的正则表达式,把正则表达式的坑摸清楚,然后学习一下re模块。re模块很重要,作用基本上不是爬虫,而是做到将获取的数据进行存储,如本地存储,网络存储,本地或网络存储加密后的文件。
首先你需要搭建一个服务器,再用mysql数据库存储你想要的数据。我不明白你可能会做什么,总之你需要了解你将要做的工作,如果想做电商,
嗯,再次强调,有个php的服务器就行,你不可能一个人解决问题。php需要和服务器处理一些简单的逻辑。还有,
爬虫主要是scrapy和requests,前者用来处理url查询信息,后者用来处理post数据等。这几个工具其实爬虫的算法都不太一样,所以你得查找一下别人的源码。另外,这个题目有点笼统。有n个人同时搜索同一个关键词,你又不知道他们要搜索什么,你需要爬虫吗?基本都是这样。另外,一般是可以用正则表达式来遍历的,而且有一些很简单的函数比如lxml。我大学就是学php的,发现很多习题都有用正则表达式,包括你那个“蜘蛛”的题目,你可以去看一下。