网页文章自动采集javascript的爬虫,再去动态网站获取链接
优采云 发布时间: 2021-05-07 02:03网页文章自动采集javascript的爬虫,再去动态网站获取链接
网页文章自动采集javascript的爬虫,实现抓取github上面一些比较火的开源项目的代码或者开源网站的源码,然后再去动态网站获取链接。
一、前端源码下载
1、github:
2、javascript-dl|test下载地址:test项目
3、原理分析
1、抓取代码逻辑中,有这么一行,调用location/page的这个函数,获取index页面的一段代码,由于page参数是一段javascript代码,所以网页设置的index也就是浏览器地址是:,所以有了解析javascript代码的一个逻辑,
2、百度获取有一个技巧,就是百度的广告页面是推荐的,那么我们就可以设置这段代码,获取这段代码,然后把转换成web页面地址,这样我们就可以打开这个页面,
二、页面源码解析
1、首先在浏览器中输入你想要抓取的网址,访问成功以后,在baiduspider页面中,打开页面,将javascript源码拉出来,但是要注意的是,这个拉出来的代码其实不是web页面,需要我们找到网页端的这个配置,
2、javascript代码解析比如在f12直接搜索就可以,全部打开以后,我们会发现开始有一个提示,你是搜不到的,打开手机wifi,进去location/firstpage这个地址,打开之后我们就会发现所有我们想要爬取的网站的源码中的网址和logo,这个javascript的是可以直接对其进行解析抓取的。
三、前端页面抓取
1、把代码复制下来,然后根据javascript源码解析地址,获取其中javascript的部分地址,
2、然后通过一些插件进行搜索javascript开源网站的源码,就比如说、youtube、github等等,直接跳转成你需要的域名,
四、页面抓取开发者工具查看代码