excel抓取网页数据(excel抓取网页数据(非采集网页)-高手-博客园)
优采云 发布时间: 2021-11-17 22:01excel抓取网页数据(excel抓取网页数据(非采集网页)-高手-博客园)
excel抓取网页数据(非采集网页,首先必须是采集数据,才能有爬虫和去重的功能,第二,http请求是https的,我要采集的页面是个https的,不然,我也无法提取dom)-高手引路-博客园分享我学习这个学习网站抓取的学习过程,加上自己的学习过程,希望能够对你有所帮助!1.第一步:准备ip,电脑,网络2.第二步:爬虫,再安装主流的几个网站的爬虫apiaccessapi,由于它是访问本地文件的api,所以,我们必须在网络和电脑上都要安装这个api。
第一步,很简单,就是下载对应的网站到access目录,然后用accessapi传递文件到excel上,有accessapi以后,相当于一个网站的数据只是到了你这个网站,如果你在浏览器里面,那么文件传递给你,只是到你这个页面,而不是你网站的html,所以,要做一个数据传递,就需要accessapi3.第三步:读取数据,我们并不需要读写整个网页数据,我们只需要查看里面的部分数据,就好比url中actname=这样的一些json数据。
这里的actname就是为爬虫来提取需要的key,这样整个网页的内容我们就可以在excel里面读取,如果你不想爬取整个网页,就从某一个网页切换到相应的网页,然后再爬取4.第四步:去重:通过第一步,我们得到actname的值,我们就可以去重,去除重复值,这个主要采用openxlsx.read_excel或者accessapi读取整个数据,写入excel文件,这种方法简单易学,清晰直观。
当然,这样不好,因为它只是批量去重,很有可能需要很长时间,大家不要这样用!5.第五步:抓取页面:抓取最终的数据,方法也就3个,一是,python解析json,二是,ajax同步,三是,getopenxmlurl数据。这是从你的爬虫服务器连接到另外一个网站,把数据抓取下来,如果你用的网站和你的excel内容内容在同一个网站上,那么抓取难度较小,通过requests解析json格式,然后调用accessapi,调用json格式,获取数据,放到excel。
对于电脑python和java解析格式代码的差异,可以参考我的文章()6.第六步:数据提取:这个就是提取里面的一些关键字或者key数据,爬虫要做的就是把这些代码抓取下来,提取出数据!一般的思路是,页面开放后,提取里面的一些字段,然后通过excel解析出key的值来抓取到数据!。