[爬虫篇]Python爬虫之爬取网页音频_爬虫怎么下载已经找到的声频

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

m0_60707660

1809人浏览 · 2024-04-18 13:27:09

m0_60707660 · 2024-04-18 13:27:09 发布

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文


### 第三步


调用download\_1()和download\_2()函数，分别下载1集——29集和21集——120集的音频文件。首先拼接出每个音频文件编号的URL，然后使用requests.get()方法获取网页内容，再从网页内容中提取出音频下载链接，最后使用urllib库中的urllib.request.urlopen()方法下载音频文件并保存。

def download_1():
for data_id_1,data_name_1 in data_id_name_code_page_1:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_1}&ptype=1" #---->接收data_id至url数据包
time.sleep(0.1)
print(“正在下载—>%s”%data_name_1)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text) #提取下载链接
print(audio_DATA_download_url[0])
download_data_url = audio_DATA_download_url[0]
try:
open_downloda_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR！”)
read_download_data_url = open_downloda_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_1,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_1()

def download_2():
for data_id_2,data_name_2 in data_id_name_code_page_2:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_2}&ptype=1"
time.sleep(0.1)
print(“正在下载—>%s”%data_name_2)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text)
print(audio_DATA_download_url)
download_data_url = audio_DATA_download_url[0]
try:
open_download_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR！”)
read_download_data_url = open_download_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_2,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_2()


### 第四步


以上就是这段代码的主要实现，最后使用print()函数提示音频下载完成。


### 完整代码

import random
import time
import requests
import urllib.request
import re
book_url = “https://www.ximalaya.com/album/22088719”

user_agent = [
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0”,
“Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.54”
]

headers = {“User-Agent” :random.choice(user_agent)}# 采用user-agent随机反爬机制
url_get_ximalaya = requests.get(headers=headers,url=book_url)
url_get_ximalaya_webcode = url_get_ximalaya.text

def with_url_get_ximalaya_webcode():
with open(“url_get_ximalaya_webcode.txt”,“a”,encoding=“utf-8”) as w:
w.write(url_get_ximalaya_webcode)
with_url_get_ximalaya_webcode()

data_id_name_code_page_1 = re.findall(‘“trackId”😦\d+),“isPaid”:false,“tag”:0,“title”:“(.*?)”’,url_get_ximalaya_webcode)# 1集------>29集
data_id_name_code_page_2 = re.findall(‘“trackId”😦\d+),“trackName”:“(.*?)”’,url_get_ximalaya_webcode)# 21集------>120集

print(“加载列表清单…”)
time.sleep(2)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）**
[外链图片转存中…(img-ekcRQsmy-1713418011943)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模