怎样抓取网页数据(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址)

优采云 发布时间: 2021-12-26 01:16

  怎样抓取网页数据(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址)

  任务:批量抓取网页pdf文件

  有一个 excel,其中收录

指向 pdf 下载链接的数千个网页地址。现在需要批量抓取这些网页地址中的pdf文件。

  Python环境:

  anaconda3

openpyxl

beautifulsoup4

  读取excel,获取网页地址

  使用 openpyxl 库读取 .xslx 文件;

  (我尝试使用 xlrd 库读取 .xsl 文件,但无法获取超链接)

  安装 openpyxl

  pip install openpyxl

  提取 xslx 文件中的超链接

  示例文件结构

  公告日期 证券代码公告名称

  2018-04-20

  603999.SH

  读者媒体:2017年年报

  2018-04-28

  603998.SH

  方盛药业:2017年年报

  def readxlsx(path):

workbook = openpyxl.load_workbook(path)

Data_sheet = workbook.get_sheet_by_name('sheet1')

rowNum = Data_sheet.max_row #读取最大行数

c = 3 # 第三列是所需要提取的数据

server = 'http://news.windin.com/ns/'

for row in range(1, rowNum + 1):

link = Data_sheet.cell(row=row, column=c).value

url = re.split(r'\"', link)[1]

print(url)

downEachPdf(url, server)

  获取网页pdf下载地址

  进入阅读媒体:2017年年报,可以在chrome浏览器中按F12查看网页源码。以下是部分源码的截取:

<p>附件:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线