抓取网页音频( Python修炼之道400页17w+字,目录如下! )
优采云 发布时间: 2021-09-10 23:13抓取网页音频(
Python修炼之道400页17w+字,目录如下!
)
4、如何获取cookies?
右击检查,找到网络,然后复制一个cookie:
/5 项目实现/
1、定义一个类继承对象,定义init方法继承self,main函数main继承self。导入需要的库和URL,代码如下。
import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport sslclass Panda(object): def __init__(self): pass def main(self): passif __name__ == '__main__': imageSpider = Panda() imageSpider.main()
2、Import URL 并构造请求头。
self.url = "https://www.tukuppt.com/yinxiaomuban/zhuanchang/__zonghe_0_0_0_0_0_0_{}.html" #/zhuanchang/:搜索的名字的拼音缩写 self.headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" }
3、发送请求获取响应,页面回调,方便下次请求。
def get_page(self, url): res = requests.get(url=url, headers=self.headers) html = res.content.decode("utf-8") return html
4、xpath 解析页面数据。
这里先获取父节点,通过for循环遍历找到对应的子节点(音效地址)。
one = parse_html.xpath('//div[@]//dl') for li in one: lis_imges = li.xpath(".//audio//source/@src")[0].strip() who = li.xpath(".//dt//a/text()")[0].strip()
获取后发现地址代表完整地址,需要填写网站才能获取实际地址。
mp3 = "https:" + lis_imges
5、运行的结果,如下图:
6、请求音效地址,获取音效a标签对应的text()作为名称,写入文件。
dirname = "./音效/" + who + '.mp3'html2 = requests.get(url=mp3, headers=self.headers).contentwith open(dirname, 'wb') as f: f.write(html2) print("\n%s下载成功" % who))
7、调用方法实现功能。
html = self.get_page(url)self.parse_page(html)
/6 效果展示/
1、点击绿色三角运行,进入起始页和结束页,如1和2,获取1页信息。
2、程序运行后,会在控制台显示结果,如下图。
3、本地保存运行结果,如下图。
4、双击文件播放。
/7 总结/
1、 不建议取太多数据,可能造成服务器负载,简单试一下。 2、本文基于Python网络爬虫,利用爬虫库去除登录限制,下载音效,保存在文档中。 3、 按照步骤实现它。实施的时候总会遇到各种各样的问题。不看高手,努力去更深入地理解它。 4、希望通过这个项目,让大家对HTTPS网站和去除ssl验证有一个大致的了解。
我把我的原创文章整理成一本电子书,名为《Python实践之道》。它有 400 页和 17w+ 个字。内容如下:
现在免费送给大家,在公众号后台回复修真道即可领取。
最后,我最近成立了一个读者交流群。想要加入的可以在公众号后台回复“加群”~
推荐阅读:爆肝整理 400 页 《Python 修炼之道》,高清电子书送给一直支持我的读者!打脸!这款百度的产品,良心的很不百度真香!我挖到了一款超级强大的 SQL 工具!这个插件,牛逼!