如何使用python抓取一个有12页的网页并返回到excel中

优采云发布时间: 2022-08-31 19:01

　　java抓取网页内容一直是老生常谈的问题，不少新手都会选择scrapy来进行爬取，大家都比较熟悉它的爬取效率问题。然而，除了效率外，还有很多新的问题，如内存等。今天我们介绍如何使用python抓取一个有12页的网页，并返回到excel中。在开始之前，我们需要制作如下一个爬虫：需要在循环中遍历12页网页，并加入python3编写代码。

　　所以，如果你想了解python3如何使用excel创建的xlsx文件，可以复习python2中：importxlsxexcel_docx=xlsx.xlsx.documents.all()#打印循环爬取到的内容print('>'*12)print(excel_docx)查看结果如下：这样，12页的网页就算全部爬取下来，你也无法获取这12个页面的内容。

　　那么有什么办法呢？这就要扯到java的内存泄漏问题了，如果真正出现java内存泄漏，那就没法用python进行爬取了。接下来我们进行探索，如何检测java内存泄漏。这里我们只做了实验，结果可能不准确，大家还需结合python-xlsx的源码进行代码解析。python解决内存泄漏的方法有很多，最常用的是回收内存，但是在这里，我们要从第二个层面入手。

　　同时，我们还是使用excel格式文件做实验。12页excel文件内容：需要保存xlsx格式的xlsx文件：如果你对python和excel没有概念，我推荐你先学习python的基础语法，可以直接看看相关的教程：python3教程，这里是网址：thepythonwebframeworkforwebdevelopers。

　　有的新手会用到环境搭建，现在这个需要你自己做，比如python3.x下的excel2.xlwt和xlsx文件：需要先打开office工具中打开你的工作目录下的excel文件，然后点击左上角菜单install即可完成安装。然后，点击左上角菜单：python3install-nexcel2.xlwt这样excel2.xlwt.xlwt就安装好了，如下图：我这里需要讲解excel2.xlwt.xlwt的读写方法，有兴趣的可以做个实验，如下：print(excel.xlwt.name)#获取当前文件内容excel.xlwt.name.doc("excel.xlwt.name")#获取工作表名字，不需要name对应excel.xlwt.name.doc("excel.xlwt.name")#获取其余名字的excel.xlwt.name.doc("excel.xlwt.name")#获取excel.xlwt.name.doc("excel.xlwt.name")#返回‘‘,我们用doc方法，简单地说一下：上面这句代码里的doc()方法，其实会调用excel2.xlwt.name.doc()来创建工作表名字，如下：doc('excel.xlwt.name'。

0

2022-08-31

java抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何使用python抓取一个有12页的网页并返回到excel中

0 个评论

发起人

AI时代内容工厂

如何使用python抓取一个有12页的网页并返回到excel中

0 个评论

发起人

相关问题