如何使用python抓取一个有12页的网页并返回到excel中
优采云 发布时间: 2022-08-31 19:01如何使用python抓取一个有12页的网页并返回到excel中
java抓取网页内容一直是老生常谈的问题,不少新手都会选择scrapy来进行爬取,大家都比较熟悉它的爬取效率问题。然而,除了效率外,还有很多新的问题,如内存等。今天我们介绍如何使用python抓取一个有12页的网页,并返回到excel中。在开始之前,我们需要制作如下一个爬虫:需要在循环中遍历12页网页,并加入python3编写代码。
所以,如果你想了解python3如何使用excel创建的xlsx文件,可以复习python2中:importxlsxexcel_docx=xlsx.xlsx.documents.all()#打印循环爬取到的内容print('>'*12)print(excel_docx)查看结果如下:这样,12页的网页就算全部爬取下来,你也无法获取这12个页面的内容。
那么有什么办法呢?这就要扯到java的内存泄漏问题了,如果真正出现java内存泄漏,那就没法用python进行爬取了。接下来我们进行探索,如何检测java内存泄漏。这里我们只做了实验,结果可能不准确,大家还需结合python-xlsx的源码进行代码解析。python解决内存泄漏的方法有很多,最常用的是回收内存,但是在这里,我们要从第二个层面入手。
同时,我们还是使用excel格式文件做实验。12页excel文件内容:需要保存xlsx格式的xlsx文件:如果你对python和excel没有概念,我推荐你先学习python的基础语法,可以直接看看相关的教程:python3教程,这里是网址:thepythonwebframeworkforwebdevelopers。
有的新手会用到环境搭建,现在这个需要你自己做,比如python3.x下的excel2.xlwt和xlsx文件:需要先打开office工具中打开你的工作目录下的excel文件,然后点击左上角菜单install即可完成安装。然后,点击左上角菜单:python3install-nexcel2.xlwt这样excel2.xlwt.xlwt就安装好了,如下图:我这里需要讲解excel2.xlwt.xlwt的读写方法,有兴趣的可以做个实验,如下:print(excel.xlwt.name)#获取当前文件内容excel.xlwt.name.doc("excel.xlwt.name")#获取工作表名字,不需要name对应excel.xlwt.name.doc("excel.xlwt.name")#获取其余名字的excel.xlwt.name.doc("excel.xlwt.name")#获取excel.xlwt.name.doc("excel.xlwt.name")#返回‘‘,我们用doc方法,简单地说一下:上面这句代码里的doc()方法,其实会调用excel2.xlwt.name.doc()来创建工作表名字,如下:doc('excel.xlwt.name'。