python抓取网页数据(pythonExcel处理数据读入和读出的都要用到操作文件文件)

优采云发布时间: 2021-12-18 03:11

　　数据挖掘工作的第一步当然是获取数据，这也是最关键的一步。下面总结一下我对python数据捕获程序的一些总结和想法，记录下来，以备日后复习。

　　1. 静态爬取和动态爬取

　　静态捕获和动态捕获都可以分析参数传递过程和加解密算法，相当于重新构建了网站的数据传输规则。简单的网站可以这样分析，但是复杂的网站自动化工具在速度要求不高的时候可以用，最常用的是Selenium，加上一些驱动包，比如Firefox、Chrome、PlantomJS等，最新版Selenium不支持PlantomJS，可以使用火狐、Chrome等无头浏览器版本。

　　在参数传递过程中，注意请求头中给出的相应参数，数据是否要编码，内容是否被压缩等；在使用Selenium的过程中，注意一些异常的区分。

　　2. Excel 处理

　　数据的读入和读出都用于操作 EXCEL 文件。一开始用xlrd、xlwt、xlutils处理EXCEL很麻烦，后来发现pandas，堪称python的一个数据挖掘神器，可以将TXT、CSV、XLS等常用文件读取成一个统一的文件数据帧格式，非常方便。对于以后所有的 Excel 操作，请使用 pandas。

　　3. 多线程多进程

　　网上关于多线程和多处理的讨论很多，资料也很多。对于数据采集程序来说，多线程和多处理效率差不多，但多线程灵活适应性强，多进程适应性差。，好像有一个多协程，没见过，应该更好用。

　　4. 图形界面

　　图形界面开发包括Tkinter、wxPython、Qt等，简单封装Tkinter就够了。毕竟，你需要学习其他的东西，这增加了学习的成本。Tkinter控件基本就够了，简单的界面就完全够用了。

　　5. 打包成exe

　　Python被打包成一个exe文件。技术有很多：pyinstaller、py2app、py2exe、cxfreeze等，这里推荐cx_Freeze。打包过程可以很清爽，最简单，但是第三方包的导入不完整，需要在过程中自行修改其源代码的错误，但相对来说，是最好用的打包工具。

　　6.全爬取和增量爬取

　　全量爬取不需要很长的爬行时间，而增量式爬取需要很长的时间，所以高可用代理的使用是必不可少的。

　　7. 思考与结论

0

2021-12-18

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(pythonExcel处理数据读入和读出的都要用到操作文件文件)

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(pythonExcel处理数据读入和读出的都要用到操作文件文件)

0 个评论

发起人

相关问题