网页源代码抓取工具(“巨潮资讯网”网页代码看不到(看不到)(图))

优采云 发布时间: 2021-10-14 02:09

  网页源代码抓取工具(“巨潮资讯网”网页代码看不到(看不到)(图))

  故事背景:近日,一位朋友想在巨潮资讯网批量下载关于“股票质押”的PDF。问我之后,我想用python写一个爬虫工具。

  原网页如下:

  %E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC

  

  思路:根据之前的Python爬虫入门经验,获取网页源码,找到下载链接,重新下载。

  这很好!查看页面的源代码。. . 看不到“搜索结果”所在页面的这部分代码?!这个“深圳万科”只是一个例子

  

  但回顾要素时,却存在“和康新能”和“永高股份”。. . :

  

  我研究了如何获取隐藏的网页代码,网上关于F12抓包和抓包的说法。. .

  模糊,我是菜鸟,能不能一步一步教我?我看到了两个有用的网页:

  

  

  回到“聚潮资讯网”,F12复习要素——>网络——>XHR——>F5重装,看到了这些东西:

  

  选择这个完整的?searchxxxxxxxxx:

  

  进入这个页面后,公告板请求了另一个url:

  请求 URL:%E8%82%A1%E7%A5%A8%E8%B4%A8%E6%8A%BC&sdate=&edate=&isfulltext=false&sortName=pubdate&sortType=desc&pageNum=1

  打开它,得到返回的数据,就是想要的“搜索结果”的数据:

  

  8. 该网页首先呈现布局界面,核心内容搜索结果异步加载。

  以后如果学了html、JavaScript等前端知识,再来这里讲解异步加载。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线