python抓取动态网页(python下抓包神技!远离sqlite,方法不对不过很久前的问题)
优采云 发布时间: 2022-04-11 11:08python抓取动态网页(python下抓包神技!远离sqlite,方法不对不过很久前的问题)
python抓取动态网页,抓取成功后保存数据,网页丢失/损坏,删除数据项目失败了,数据丢失的很彻底。爬虫的设计师也是有够脆弱,面对现实随时都要崩溃了。网站问题会有web问题也会有浏览器问题问题,
我觉得抓取动态网页最实用的是抓包。network面前,需要多花点精力在设计数据包上。详见下面的博客:python下抓包神技!远离sqlite,
方法不对不过很久前的问题,根据提问背景和回答时间应该已经有一些程序逻辑上的变化了估计爬不到原因会有很多方面吧最基本的方面可能是抓取工具限制,比如现在一些工具不支持pythonrequests等工具抓取;例如动态网页翻页,如果第一页没抓取到后面的就没抓到;第二页没抓到,网页内容也就翻不到底了python和解析器兼容性有点差爬取数据的时候要做好强制转码,也就是手动设置一下url能看到的解析器的版本、去掉invalidascii(别看不起import)mozillaflask这种做法是错误的,他用了无耻的requests,如果抓取数据比较大用这样抓数据会非常慢,特别是底层请求前后端隔离做得差点,我试过有的时候再加个asyncio还好点,像爬js库之类的或者爬个api接口(其实一般都还是flask开发)还是用java或者golang好一点,对解析器兼容性更好,使用方便一点。