python抓取动态网页 “经阅Sharing”|第一期活动回顾

优采云 发布时间: 2022-05-02 19:41

  python抓取动态网页 “经阅Sharing”|第一期活动回顾

  2022年4月30日晚,由经济学院*敏*感*词*会主办的第一期“经阅Sharing”学术分享活动在线上举办。本次活动中,经济学院2020级博士*敏*感*词*赵文天以“Python爬虫实用技能——从入门到进阶”为主题进行了分享。

  

  主讲人首先介绍了爬虫的基本功能和实现原理:爬虫是一种从众多公开网站中抓取数据的程序,在现今各个领域的学术研究中被广泛地应用。其次介绍了浏览器、HTML与web请求过程:浏览器将承载着包括对象、属性和过程等信息的HTML语言,翻译*敏*感*词*们可阅读的网页信息。这一过程可以分解为两步:第一步客户端向服务器发送请求信息;第二步服务器向客户端返回请求信息所要求的网页代码(HTML)和数据。

  随后,主讲人为我们介绍了爬虫程序实现思路。核心就是用程序模拟浏览器的行为,向服务器发送请求,并接收对应的信息,最终再提取出我们想要的数据。主讲人以百度网页为例,向我们展示了在我们如何获取浏览器向服务器发送的请求指令,以及如何从指令中寻找规律,得到我们想要的结果。

  

  之后,主讲人开始演示爬虫的具体操作,分别以百度网页和中国知网为例,详细地介绍了利用requests库爬取同步加载和异步加载数据的主要思路,以及在这过程中可能遇到的问题和解决方式。

  除此之外,主讲人还介绍了另一种爬虫库——selenium,比对了两种爬虫库在应用上的不同与优劣,并且还向我们介绍了re正则表达式语言,展示了该语言与requests相结合进行爬虫的主要方法。

  

  最后,主讲人与同学们就平时学习以及实践过程中的疑问进行交流,和同学们分享了自己在爬虫方面的诸多经验。本次“经阅Sharing”在大家的热烈讨论中结束。

  本学期首次“经阅Sharing”举办活动圆满成功,之后会陆续推出技能介绍与经验分享等学术活动,欢迎大家持续关注!

  文案|杨惠婷

  经济学院*敏*感*词*会学术部供稿

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线