网页源代码抓取工具(“巨潮资讯网”网页代码看不到(看不到)(图))
优采云 发布时间: 2021-10-14 02:09网页源代码抓取工具(“巨潮资讯网”网页代码看不到(看不到)(图))
故事背景:近日,一位朋友想在巨潮资讯网批量下载关于“股票质押”的PDF。问我之后,我想用python写一个爬虫工具。
原网页如下:
%E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC
思路:根据之前的Python爬虫入门经验,获取网页源码,找到下载链接,重新下载。
这很好!查看页面的源代码。. . 看不到“搜索结果”所在页面的这部分代码?!这个“深圳万科”只是一个例子
但回顾要素时,却存在“和康新能”和“永高股份”。. . :
我研究了如何获取隐藏的网页代码,网上关于F12抓包和抓包的说法。. .
模糊,我是菜鸟,能不能一步一步教我?我看到了两个有用的网页:
回到“聚潮资讯网”,F12复习要素——>网络——>XHR——>F5重装,看到了这些东西:
选择这个完整的?searchxxxxxxxxx:
进入这个页面后,公告板请求了另一个url:
请求 URL:%E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC&sdate=&edate=&isfulltext=false&sortName=pubdate&sortType=desc&pageNum=1
打开它,得到返回的数据,就是想要的“搜索结果”的数据:
8. 该网页首先呈现布局界面,核心内容搜索结果异步加载。
以后如果学了html、JavaScript等前端知识,再来这里讲解异步加载。