python抓取网页数据(pythonExcel处理数据读入和读出的都要用到操作文件文件)
优采云 发布时间: 2021-12-18 03:11python抓取网页数据(pythonExcel处理数据读入和读出的都要用到操作文件文件)
数据挖掘工作的第一步当然是获取数据,这也是最关键的一步。下面总结一下我对python数据捕获程序的一些总结和想法,记录下来,以备日后复习。
1. 静态爬取和动态爬取
静态捕获和动态捕获都可以分析参数传递过程和加解密算法,相当于重新构建了网站的数据传输规则。简单的网站可以这样分析,但是复杂的网站自动化工具在速度要求不高的时候可以用,最常用的是Selenium,加上一些驱动包,比如Firefox、Chrome、PlantomJS等,最新版Selenium不支持PlantomJS,可以使用火狐、Chrome等无头浏览器版本。
在参数传递过程中,注意请求头中给出的相应参数,数据是否要编码,内容是否被压缩等;在使用Selenium的过程中,注意一些异常的区分。
2. Excel 处理
数据的读入和读出都用于操作 EXCEL 文件。一开始用xlrd、xlwt、xlutils处理EXCEL很麻烦,后来发现pandas,堪称python的一个数据挖掘神器,可以将TXT、CSV、XLS等常用文件读取成一个统一的文件数据帧格式,非常方便。对于以后所有的 Excel 操作,请使用 pandas。
3. 多线程多进程
网上关于多线程和多处理的讨论很多,资料也很多。对于数据采集程序来说,多线程和多处理效率差不多,但多线程灵活适应性强,多进程适应性差。,好像有一个多协程,没见过,应该更好用。
4. 图形界面
图形界面开发包括Tkinter、wxPython、Qt等,简单封装Tkinter就够了。毕竟,你需要学习其他的东西,这增加了学习的成本。Tkinter控件基本就够了,简单的界面就完全够用了。
5. 打包成exe
Python被打包成一个exe文件。技术有很多:pyinstaller、py2app、py2exe、cxfreeze等,这里推荐cx_Freeze。打包过程可以很清爽,最简单,但是第三方包的导入不完整,需要在过程中自行修改其源代码的错误,但相对来说,是最好用的打包工具。
6.全爬取和增量爬取
全量爬取不需要很长的爬行时间,而增量式爬取需要很长的时间,所以高可用代理的使用是必不可少的。
7. 思考与结论