文章采集完(文章采集完成后，首先就要用大爬虫爬取这个网站)

优采云发布时间: 2022-03-31 18:10

　　文章采集完成后，首先就要用大爬虫爬取这个网站的所有内容，接下来我们在这个网站里面可以找到网站所有的页面，还有这个网站的内容在网站上的集合。到这里差不多就把网站就爬下来了。接下来需要先爬取网站上的内容，一般情况下都是通过请求返回的html源代码页面，所以我们需要修改源代码并解析，然后分析源代码构造请求返回的html页面，才能用户体验好一点，可以有效的防止用户反爬虫。

　　这里分享几个抓取网站上的源代码的技巧：1.定位源代码和url：首先，我们定位到div的标签上，然后把这个div定位到每一个超链接都在源代码上，这样就可以定位到每一个超链接html代码上所对应的html页面，这个页面在网站html里所体现的信息基本上就是我们所要抓取的信息了。比如说上面这个网站的内容，我们就可以解析其中的有效的地址，这样就可以很轻松的获取里面的信息。

　　如果是网站html里有a标签的话，那么这个url在这个html里也存在，因此我们直接使用这个地址就可以抓取到整个网站的内容了。我自己实现的网站url这边定位到网站html首页的源代码，然后用edx.js抓取并整理，可以放到js库里，这样就可以保证抓取的效率最高了。2.不同位置分析的不同方法：从网站html来说，我们可以分析每一个html里代表的字段和数据，但是要注意的是对于每一个html里的一些字段可能会有重复，因此抓取的时候一定要注意分析所抓取内容中这些字段，然后再根据内容去分析出该html里所有包含的字段，用中间函数的方法来清楚每一个字段的所有信息。

　　这是我前一段时间做的一个爬虫，因为当时爬取的比较少，所以数据拿出来分析，不过如果爬取的量比较大，就要好好设计抓取的函数，将不同html每一个位置所包含的字段弄清楚，然后设置保存下来才放到对应的数据库里面去。3.代码分析的一些tips，比如写注释（想想为什么都可以写在注释里呢），设置断点执行代码，伪循环，代码分割等等，这些细节都需要去斟酌一下的。最后希望上面所写的内容可以帮助到大家更好的解决爬虫这个问题。

0

2022-03-31

文章采集完

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集完(文章采集完成后，首先就要用大爬虫爬取这个网站)

0 个评论

发起人

AI时代内容工厂

文章采集完(文章采集完成后，首先就要用大爬虫爬取这个网站)

0 个评论

发起人

相关问题