抓取网页音频( Python修炼之道400页17w+字，目录如下！ )

优采云发布时间: 2021-09-10 23:13

　　抓取网页音频(

Python修炼之道400页17w+字，目录如下！

)

　　4、如何获取cookies？

　　右击检查，找到网络，然后复制一个cookie：

　　/5 项目实现/

　　1、定义一个类继承对象，定义init方法继承self，main函数main继承self。导入需要的库和URL，代码如下。

　　import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport sslclass Panda(object): def __init__(self): pass def main(self): passif __name__ == '__main__': imageSpider = Panda() imageSpider.main()

　　2、Import URL 并构造请求头。

　　 self.url = "https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_{}.html" #/zhuanchang/:搜索的名字的拼音缩写 self.headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" }

　　3、发送请求获取响应，页面回调，方便下次请求。

　　 def get_page(self, url): res = requests.get(url=url, headers=self.headers) html = res.content.decode("utf-8") return html

　　4、xpath 解析页面数据。

　　这里先获取父节点，通过for循环遍历找到对应的子节点（音效地址）。

　　one = parse_html.xpath('//div[@]//dl') for li in one: lis_imges = li.xpath(".//audio//source/@src")[0].strip() who = li.xpath(".//dt//a/text()")[0].strip()

　　‍

　　获取后发现地址代表完整地址，需要填写网站才能获取实际地址。

　　 mp3 = "https:" + lis_imges

　　5、运行的结果，如下图：

　　6、请求音效地址，获取音效a标签对应的text()作为名称，写入文件。

　　dirname = "./音效/" + who + '.mp3'html2 = requests.get(url=mp3, headers=self.headers).contentwith open(dirname, 'wb') as f: f.write(html2) print("\n%s下载成功" % who))

　　7、调用方法实现功能。

　　html = self.get_page(url)self.parse_page(html)

　　/6 效果展示/

　　1、点击绿色三角运行，进入起始页和结束页，如1和2，获取1页信息。

　　2、程序运行后，会在控制台显示结果，如下图。

　　3、本地保存运行结果，如下图。

　　4、双击文件播放。

　　/7 总结/

　　1、不建议取太多数据，可能造成服务器负载，简单试一下。 2、本文基于Python网络爬虫，利用爬虫库去除登录限制，下载音效，保存在文档中。 3、按照步骤实现它。实施的时候总会遇到各种各样的问题。不看高手，努力去更深入地理解它。 4、希望通过这个项目，让大家对HTTPS网站和去除ssl验证有一个大致的了解。

　　我把我的原创文章整理成一本电子书，名为《Python实践之道》。它有 400 页和 17w+ 个字。内容如下：

　　现在免费送给大家，在公众号后台回复修真道即可领取。

　　最后，我最近成立了一个读者交流群。想要加入的可以在公众号后台回复“加群”~

　　推荐阅读：爆肝整理 400 页《Python 修炼之道》，高清电子书送给一直支持我的读者！打脸！这款百度的产品，良心的很不百度真香！我挖到了一款超级强大的 SQL 工具！这个插件，牛逼！

0

2021-09-10

抓取网页音频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页音频( Python修炼之道400页17w+字，目录如下！ )

0 个评论

发起人

AI时代内容工厂

抓取网页音频( Python修炼之道400页17w+字，目录如下！ )

0 个评论

发起人

相关问题