php抓取网页表格信息(读者传媒:2017年年度报告2018-04-28.SH方盛制药)

优采云发布时间: 2021-09-21 20:06

　　任务：批量抓取网页和PDF文件

　　有一个excel，有数千个网页地址指向PDF下载链接。现在，您需要批量获取这些网页地址中的PDF文件

　　Python环境：

　　anaconda3

openpyxl

beautifulsoup4

　　阅读excel并获取网页地址

　　使用openpyxl库进行阅读。Xslx文件

　　（尝试使用xlrd库读取.XSL文件，但未能获取超链接）

　　安装openpyxl

　　pip install openpyxl

　　从XSL X文件中提取超链接

　　示例文件构造

　　公告日期证券代码公告标题

　　2018-04-20

　　603999.SH

　　读者媒体：2017年度报告

　　2018-04-28

　　603998.SH

　　方生药业：2017年度报告

　　def readxlsx(path):

workbook = openpyxl.load_workbook(path)

Data_sheet = workbook.get_sheet_by_name('sheet1')

rowNum = Data_sheet.max_row #读取最大行数

c = 3 # 第三列是所需要提取的数据

server = 'http://news.windin.com/ns/'

for row in range(1, rowNum + 1):

link = Data_sheet.cell(row=row, column=c).value

url = re.split(r'\"', link)[1]

print(url)

downEachPdf(url, server)

　　获取网页pdf下载地址

　　进入阅读器媒体：在2017年度报告中，您可以在Chrome浏览器中按F12键查看web源代码。下面截取了一些源代码：

<p>附件:

0

2021-09-21

php抓取网页表格信息

0 个评论

要回复文章请先登录或注册