怎样抓取网页数据(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址)

优采云发布时间: 2021-12-26 01:16

　　任务：批量抓取网页pdf文件

　　有一个 excel，其中收录

指向 pdf 下载链接的数千个网页地址。现在需要批量抓取这些网页地址中的pdf文件。

　　Python环境：

　　anaconda3

openpyxl

beautifulsoup4

　　读取excel，获取网页地址

　　使用 openpyxl 库读取 .xslx 文件；

　　（我尝试使用 xlrd 库读取 .xsl 文件，但无法获取超链接）

　　安装 openpyxl

　　pip install openpyxl

　　提取 xslx 文件中的超链接

　　示例文件结构

　　公告日期证券代码公告名称

　　2018-04-20

　　603999.SH

　　读者媒体：2017年年报

　　2018-04-28

　　603998.SH

　　方盛药业：2017年年报

　　def readxlsx(path):

workbook = openpyxl.load_workbook(path)

Data_sheet = workbook.get_sheet_by_name('sheet1')

rowNum = Data_sheet.max_row #读取最大行数

c = 3 # 第三列是所需要提取的数据

server = 'http://news.windin.com/ns/'

for row in range(1, rowNum + 1):

link = Data_sheet.cell(row=row, column=c).value

url = re.split(r'\"', link)[1]

print(url)

downEachPdf(url, server)

　　获取网页pdf下载地址

　　进入阅读媒体：2017年年报，可以在chrome浏览器中按F12查看网页源码。以下是部分源码的截取：

<p>附件:

0

2021-12-26

怎样抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

怎样抓取网页数据(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址)

0 个评论

发起人

AI时代内容工厂

怎样抓取网页数据(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址)

0 个评论

发起人

相关问题