excel抓取网页数据(excel抓取网页数据（非采集网页）-高手-博客园)

优采云发布时间: 2021-11-17 22:01

　　excel抓取网页数据（非采集网页，首先必须是采集数据，才能有爬虫和去重的功能，第二，http请求是https的，我要采集的页面是个https的，不然，我也无法提取dom）-高手引路-博客园分享我学习这个学习网站抓取的学习过程，加上自己的学习过程，希望能够对你有所帮助！1.第一步：准备ip，电脑，网络2.第二步：爬虫，再安装主流的几个网站的爬虫apiaccessapi，由于它是访问本地文件的api，所以，我们必须在网络和电脑上都要安装这个api。

　　第一步，很简单，就是下载对应的网站到access目录，然后用accessapi传递文件到excel上，有accessapi以后，相当于一个网站的数据只是到了你这个网站，如果你在浏览器里面，那么文件传递给你，只是到你这个页面，而不是你网站的html，所以，要做一个数据传递，就需要accessapi3.第三步：读取数据，我们并不需要读写整个网页数据，我们只需要查看里面的部分数据，就好比url中actname=这样的一些json数据。

　　这里的actname就是为爬虫来提取需要的key，这样整个网页的内容我们就可以在excel里面读取，如果你不想爬取整个网页，就从某一个网页切换到相应的网页，然后再爬取4.第四步：去重：通过第一步，我们得到actname的值，我们就可以去重，去除重复值，这个主要采用openxlsx.read_excel或者accessapi读取整个数据，写入excel文件，这种方法简单易学，清晰直观。

　　当然，这样不好，因为它只是批量去重，很有可能需要很长时间，大家不要这样用！5.第五步：抓取页面：抓取最终的数据，方法也就3个，一是，python解析json，二是，ajax同步，三是，getopenxmlurl数据。这是从你的爬虫服务器连接到另外一个网站，把数据抓取下来，如果你用的网站和你的excel内容内容在同一个网站上，那么抓取难度较小，通过requests解析json格式，然后调用accessapi，调用json格式，获取数据，放到excel。

　　对于电脑python和java解析格式代码的差异，可以参考我的文章（）6.第六步：数据提取：这个就是提取里面的一些关键字或者key数据，爬虫要做的就是把这些代码抓取下来，提取出数据！一般的思路是，页面开放后，提取里面的一些字段，然后通过excel解析出key的值来抓取到数据！。

0

2021-11-17

excel抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

excel抓取网页数据(excel抓取网页数据（非采集网页）-高手-博客园)

0 个评论

发起人

AI时代内容工厂

excel抓取网页数据(excel抓取网页数据（非采集网页）-高手-博客园)

0 个评论

发起人

相关问题