文章采集完(文章采集完成后,首先就要用大爬虫爬取这个网站)
优采云 发布时间: 2022-03-31 18:10文章采集完成后,首先就要用大爬虫爬取这个网站的所有内容,接下来我们在这个网站里面可以找到网站所有的页面,还有这个网站的内容在网站上的集合。到这里差不多就把网站就爬下来了。接下来需要先爬取网站上的内容,一般情况下都是通过请求返回的html源代码页面,所以我们需要修改源代码并解析,然后分析源代码构造请求返回的html页面,才能用户体验好一点,可以有效的防止用户反爬虫。
这里分享几个抓取网站上的源代码的技巧:1.定位源代码和url:首先,我们定位到div的标签上,然后把这个div定位到每一个超链接都在源代码上,这样就可以定位到每一个超链接html代码上所对应的html页面,这个页面在网站html里所体现的信息基本上就是我们所要抓取的信息了。比如说上面这个网站的内容,我们就可以解析其中的有效的地址,这样就可以很轻松的获取里面的信息。
如果是网站html里有a标签的话,那么这个url在这个html里也存在,因此我们直接使用这个地址就可以抓取到整个网站的内容了。我自己实现的网站url这边定位到网站html首页的源代码,然后用edx.js抓取并整理,可以放到js库里,这样就可以保证抓取的效率最高了。2.不同位置分析的不同方法:从网站html来说,我们可以分析每一个html里代表的字段和数据,但是要注意的是对于每一个html里的一些字段可能会有重复,因此抓取的时候一定要注意分析所抓取内容中这些字段,然后再根据内容去分析出该html里所有包含的字段,用中间函数的方法来清楚每一个字段的所有信息。
这是我前一段时间做的一个爬虫,因为当时爬取的比较少,所以数据拿出来分析,不过如果爬取的量比较大,就要好好设计抓取的函数,将不同html每一个位置所包含的字段弄清楚,然后设置保存下来才放到对应的数据库里面去。3.代码分析的一些tips,比如写注释(想想为什么都可以写在注释里呢),设置断点执行代码,伪循环,代码分割等等,这些细节都需要去斟酌一下的。最后希望上面所写的内容可以帮助到大家更好的解决爬虫这个问题。