网页源代码抓取工具(“巨潮资讯网”网页代码看不到(看不到)(图))

优采云发布时间: 2021-10-14 02:09

　　故事背景：近日，一位朋友想在巨潮资讯网批量下载关于“股票质押”的PDF。问我之后，我想用python写一个爬虫工具。

　　原网页如下：

　　%E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC

　　思路：根据之前的Python爬虫入门经验，获取网页源码，找到下载链接，重新下载。

　　这很好！查看页面的源代码。. . 看不到“搜索结果”所在页面的这部分代码？！这个“深圳万科”只是一个例子

　　但回顾要素时，却存在“和康新能”和“永高股份”。. . ：

　　我研究了如何获取隐藏的网页代码，网上关于F12抓包和抓包的说法。. .

　　模糊，我是菜鸟，能不能一步一步教我？我看到了两个有用的网页：

　　回到“聚潮资讯网”，F12复习要素——>网络——>XHR——>F5重装，看到了这些东西：

　　选择这个完整的？searchxxxxxxxxx：

　　进入这个页面后，公告板请求了另一个url：

　　请求 URL：%E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC&sdate=&edate=&isfulltext=false&sortName=pubdate&sortType=desc&pageNum=1

　　打开它，得到返回的数据，就是想要的“搜索结果”的数据：

　　8. 该网页首先呈现布局界面，核心内容搜索结果异步加载。

　　以后如果学了html、JavaScript等前端知识，再来这里讲解异步加载。

0

2021-10-14

网页源代码抓取工具

0 个评论

要回复文章请先登录或注册