python抓取动态网页 “经阅Sharing”｜第一期活动回顾

优采云发布时间: 2022-05-02 19:41

　　2022年4月30日晚，由经济学院*敏*感*词*会主办的第一期“经阅Sharing”学术分享活动在线上举办。本次活动中，经济学院2020级博士*敏*感*词*赵文天以“Python爬虫实用技能——从入门到进阶”为主题进行了分享。

　　主讲人首先介绍了爬虫的基本功能和实现原理：爬虫是一种从众多公开网站中抓取数据的程序，在现今各个领域的学术研究中被广泛地应用。其次介绍了浏览器、HTML与web请求过程：浏览器将承载着包括对象、属性和过程等信息的HTML语言，翻译*敏*感*词*们可阅读的网页信息。这一过程可以分解为两步：第一步客户端向服务器发送请求信息；第二步服务器向客户端返回请求信息所要求的网页代码（HTML）和数据。

　　随后，主讲人为我们介绍了爬虫程序实现思路。核心就是用程序模拟浏览器的行为，向服务器发送请求，并接收对应的信息，最终再提取出我们想要的数据。主讲人以百度网页为例，向我们展示了在我们如何获取浏览器向服务器发送的请求指令，以及如何从指令中寻找规律，得到我们想要的结果。

　　之后，主讲人开始演示爬虫的具体操作，分别以百度网页和中国知网为例，详细地介绍了利用requests库爬取同步加载和异步加载数据的主要思路，以及在这过程中可能遇到的问题和解决方式。

　　除此之外，主讲人还介绍了另一种爬虫库——selenium，比对了两种爬虫库在应用上的不同与优劣，并且还向我们介绍了re正则表达式语言，展示了该语言与requests相结合进行爬虫的主要方法。

　　最后，主讲人与同学们就平时学习以及实践过程中的疑问进行交流，和同学们分享了自己在爬虫方面的诸多经验。本次“经阅Sharing”在大家的热烈讨论中结束。

　　本学期首次“经阅Sharing”举办活动圆满成功，之后会陆续推出技能介绍与经验分享等学术活动，欢迎大家持续关注！

　　文案｜杨惠婷

　　经济学院*敏*感*词*会学术部供稿

0

2022-05-02

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页 “经阅Sharing”｜第一期活动回顾

0 个评论

发起人