一、环境准备

1、安装手册

https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md#%E5%AE%89%E8%A3%85

2、飞桨官网

https://www.paddlepaddle.org.cn/
在这里插入图片描述

3、本人使用的环境

win10+miniconda3+python3.9+cuda12.0+cuDNN8.8.0+PaddlePaddle2.6

二、miniconda3的安装及python虚拟环境创建

1、官方下载地址

https://docs.anaconda.com/miniconda/

2、安装流程

(1)根据安装程序提示进行安装,注意一下安装包的存放位置就行

(2)在系统变量中,path下添加miniconda的路径
在这里插入图片描述

在这里插入图片描述

(3)测试环境变量是否生效

conda --version

在这里插入图片描述

3、python虚拟环境创建

# conda create -n 虚拟环境名字 python=版本 
conda create -n xhtPython python=3.9

注意创建过程中会提示确认输入:y

# 查看创建的虚拟环境
conda env list

在这里插入图片描述

# 切换到此环境下
conda activate xhtPython

在这里插入图片描述
在此环境下我们就可以使用python、pip相关的命令了
在这里插入图片描述

三、cuda12.0、cuDNN8.8.0的安装

1、下载地址

cuda: https://developer.nvidia.com/cuda-toolkit-archive
cuDNN: https://developer.nvidia.com/rdp/cudnn-archive

2、cuda12.0安装

(1)按照安装程序提示安装,此处推荐选择自定义安装
在这里插入图片描述

(2)注意此处最好取消勾选Nsight VSE,这个选项可能会造成安装报错
参考:https://blog.csdn.net/A_No2Tang/article/details/133153402
在这里插入图片描述
(3)cuda会自动配置环境变量
在这里插入图片描述

ncvv --version

在这里插入图片描述

3、cuDNN8.8.0的安装

(1)解压之后,复制三个文件夹,放入cuda的安装文件夹中
在这里插入图片描述
在这里插入图片描述
(2)安装验证,进入cuda安装文件下extras\demo_suite中,依次输入bandwidthTest.exe 和 deviceQuery.exe,出现如下输出则表示安装成功
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、paddlespeech安装

1、安装命令(建议挂梯子)

# paddlepaddle-gpu版本安装
python -m pip install paddlepaddle-gpu==2.6.1.post120 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html

pip install pytest-runner

pip install paddlespeech

2、测试语音识别

测试语音下载地址:https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav

paddlespeech asr --lang zh --input zh.wav

在这里插入图片描述

注意:可能会出现一些缺少依赖或者版本不匹配的报错,比如numpy的版本报错,都会在命令行中提示,可参考https://github.com/PaddlePaddle/PaddleSpeech/discussions/1195 查找问题

3、自主录音测试

如果尝试自己录一段普通话音频转文字,直接进行语音识别会报格式错误,需要指定rate和bits的值,可考虑通过ffmpeg来进行文件格式转换
在这里插入图片描述
这里提示需要rate 16k、bits 16

# ffmpge转换命令
ffmpeg -i test.m4a -ar 16k -ab 16 output.wav

在这里插入图片描述

# 识别刚刚转换的音频文件
paddlespeech asr --lang zh --input output.wav

在这里插入图片描述

4、语音合成测试

paddlespeech tts --input "你好,欢迎光临!" --output out.wav

在使用语音合成时,可能会遇到一些包版本冲突的问题,比如scipy、numpy、matplotlib
在这里插入图片描述
在这里插入图片描述
这里修改一下版本

# 我使用的版本,具体请按照paddle版本修改
pip install --upgrade scipy==1.7.3

pip install --upgrade numpy==1.22.4

pip install --upgrade matplotlib==3.3.0

# 查看pip各依赖包版本
pip list

五、Speech Server的安装部署

参考地址:https://aistudio.baidu.com/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266

1、拉取源码,安装依赖

# 从gitee上获取源码
git clone -b r1.2 https://gitee.com/paddlepaddle/PaddleSpeech

#进入源码包
cd PaddleSpeech

#安装依赖
pip install pytest-runner
pip install .
pip install uvicorn==0.18.3
pip install typeguard==2.13.3

# 开启服务,application.yaml中的配置可参考官方文档,默认服务地址127.0.0.1:8090
paddlespeech_server start --config_file ./paddlespeech/server/conf/application.yaml

以下输出表示启动成功

在这里插入图片描述
随即使用命令测试

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input D:\wavTest\zh.wav

在这里插入图片描述

2、python客户端调用

调用server对外暴露的http接口,接口说明:https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API

# 语音识别测试
from paddlespeech.server.bin.paddlespeech_client import ASRClientExecutor

asrclient_executor = ASRClientExecutor()
res = asrclient_executor(
    input="D:\wavTest\zh.wav",
    server_ip="127.0.0.1",
    port=8090,
    sample_rate=16000,
    lang="zh_cn",
    audio_format="wav")

print(res)

成功输出

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐