windows环境下paddlespeech的安装使用（GPU版）

Mr.var

2609人浏览 · 2024-07-29 17:11:01

Mr.var · 2024-07-29 17:11:01 发布

一、环境准备

1、安装手册

https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md#%E5%AE%89%E8%A3%85

2、飞桨官网

https://www.paddlepaddle.org.cn/
在这里插入图片描述

3、本人使用的环境

win10+miniconda3+python3.9+cuda12.0+cuDNN8.8.0+PaddlePaddle2.6

二、miniconda3的安装及python虚拟环境创建

1、官方下载地址

https://docs.anaconda.com/miniconda/

2、安装流程

（1）根据安装程序提示进行安装，注意一下安装包的存放位置就行

（2）在系统变量中，path下添加miniconda的路径
在这里插入图片描述

在这里插入图片描述

（3）测试环境变量是否生效

conda --version

在这里插入图片描述

3、python虚拟环境创建

# conda create -n 虚拟环境名字 python=版本 
conda create -n xhtPython python=3.9

注意创建过程中会提示确认输入：y

# 查看创建的虚拟环境
conda env list

在这里插入图片描述

# 切换到此环境下
conda activate xhtPython

在这里插入图片描述
在此环境下我们就可以使用python、pip相关的命令了

三、cuda12.0、cuDNN8.8.0的安装

1、下载地址

cuda: https://developer.nvidia.com/cuda-toolkit-archive
cuDNN: https://developer.nvidia.com/rdp/cudnn-archive

2、cuda12.0安装

（1）按照安装程序提示安装，此处推荐选择自定义安装
在这里插入图片描述

（2）注意此处最好取消勾选Nsight VSE，这个选项可能会造成安装报错
参考：https://blog.csdn.net/A_No2Tang/article/details/133153402
在这里插入图片描述
（3）cuda会自动配置环境变量

ncvv --version

在这里插入图片描述

3、cuDNN8.8.0的安装

（1）解压之后，复制三个文件夹，放入cuda的安装文件夹中
在这里插入图片描述

（2）安装验证，进入cuda安装文件下extras\demo_suite中，依次输入bandwidthTest.exe 和 deviceQuery.exe，出现如下输出则表示安装成功

四、paddlespeech安装

1、安装命令（建议挂梯子）

# paddlepaddle-gpu版本安装
python -m pip install paddlepaddle-gpu==2.6.1.post120 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html

pip install pytest-runner

pip install paddlespeech

2、测试语音识别

测试语音下载地址：https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav

paddlespeech asr --lang zh --input zh.wav

在这里插入图片描述

注意：可能会出现一些缺少依赖或者版本不匹配的报错，比如numpy的版本报错，都会在命令行中提示，可参考https://github.com/PaddlePaddle/PaddleSpeech/discussions/1195 查找问题

3、自主录音测试

如果尝试自己录一段普通话音频转文字，直接进行语音识别会报格式错误，需要指定rate和bits的值，可考虑通过ffmpeg来进行文件格式转换
在这里插入图片描述
这里提示需要rate 16k、bits 16

# ffmpge转换命令
ffmpeg -i test.m4a -ar 16k -ab 16 output.wav

在这里插入图片描述

# 识别刚刚转换的音频文件
paddlespeech asr --lang zh --input output.wav

在这里插入图片描述

4、语音合成测试

paddlespeech tts --input "你好，欢迎光临！" --output out.wav

在使用语音合成时，可能会遇到一些包版本冲突的问题，比如scipy、numpy、matplotlib
在这里插入图片描述

这里修改一下版本

# 我使用的版本，具体请按照paddle版本修改
pip install --upgrade scipy==1.7.3

pip install --upgrade numpy==1.22.4

pip install --upgrade matplotlib==3.3.0

# 查看pip各依赖包版本
pip list

五、Speech Server的安装部署

参考地址：https://aistudio.baidu.com/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266

1、拉取源码，安装依赖

# 从gitee上获取源码
git clone -b r1.2 https://gitee.com/paddlepaddle/PaddleSpeech

#进入源码包
cd PaddleSpeech

#安装依赖
pip install pytest-runner
pip install .
pip install uvicorn==0.18.3
pip install typeguard==2.13.3

# 开启服务，application.yaml中的配置可参考官方文档，默认服务地址127.0.0.1:8090
paddlespeech_server start --config_file ./paddlespeech/server/conf/application.yaml

以下输出表示启动成功

在这里插入图片描述
随即使用命令测试

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input D:\wavTest\zh.wav

在这里插入图片描述

2、python客户端调用

调用server对外暴露的http接口，接口说明：https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API

# 语音识别测试
from paddlespeech.server.bin.paddlespeech_client import ASRClientExecutor

asrclient_executor = ASRClientExecutor()
res = asrclient_executor(
    input="D:\wavTest\zh.wav",
    server_ip="127.0.0.1",
    port=8090,
    sample_rate=16000,
    lang="zh_cn",
    audio_format="wav")

print(res)

成功输出

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模