php抓取网页表格信息(读者传媒:2017年年度报告2018-04-28.SH方盛制药)
优采云 发布时间: 2021-09-21 20:06php抓取网页表格信息(读者传媒:2017年年度报告2018-04-28.SH方盛制药)
任务:批量抓取网页和PDF文件
有一个excel,有数千个网页地址指向PDF下载链接。现在,您需要批量获取这些网页地址中的PDF文件
Python环境:
anaconda3
openpyxl
beautifulsoup4
阅读excel并获取网页地址
使用openpyxl库进行阅读。Xslx文件
(尝试使用xlrd库读取.XSL文件,但未能获取超链接)
安装openpyxl
pip install openpyxl
从XSL X文件中提取超链接
示例文件构造
公告日期证券代码公告标题
2018-04-20
603999.SH
读者媒体:2017年度报告
2018-04-28
603998.SH
方生药业:2017年度报告
def readxlsx(path):
workbook = openpyxl.load_workbook(path)
Data_sheet = workbook.get_sheet_by_name('sheet1')
rowNum = Data_sheet.max_row #读取最大行数
c = 3 # 第三列是所需要提取的数据
server = 'http://news.windin.com/ns/'
for row in range(1, rowNum + 1):
link = Data_sheet.cell(row=row, column=c).value
url = re.split(r'\"', link)[1]
print(url)
downEachPdf(url, server)
获取网页pdf下载地址
进入阅读器媒体:在2017年度报告中,您可以在Chrome浏览器中按F12键查看web源代码。下面截取了一些源代码:
<p>附件: