【求助帖】当前在做语音模型相关的项目，由于是对话音频，涉及到说话者身份识别客户和客服，但是当前spk或语音分离模型效果并不好，特别是短句，比如说你好，了解这种效果就很差，所以想提升一下效果，想请教一下有没有什么好的提升思路；比如说语音增强方式或者优化spk识别效果提升 #473

New Issue

18234414483 · 2025-01-10T17:19:01+08:00

18234414483 commented

2025-01-10 17:19:01 +08:00

No description provided.

12019701659cs commented

2025-01-10 18:56:31 +08:00

可以考虑这些方法：

降噪：比如谱减法；维纳滤波；深度学习方法：使用深度神经网络（DNN、CNN、RNN）进行降噪。
去混响：使用深度学习模型学习去混响的映射关系，例如使用 Wave-U-Net 等模型。
针对短句的增强：
上下文信息利用：如果有上下文信息，可以尝试将短句与其前后音频片段拼接起来进行增强，利用更长的语音片段进行更有效的降噪和去混响。
基于生成对抗网络（GAN）的增强： GAN 在生成逼真语音方面表现出色，可以尝试使用 GAN 来增强短句，使其更清晰。

可以考虑这些方法： 1. 降噪：比如谱减法；维纳滤波；深度学习方法：使用深度神经网络（DNN、CNN、RNN）进行降噪。 2. 去混响：使用深度学习模型学习去混响的映射关系，例如使用 Wave-U-Net 等模型。针对短句的增强： 1. 上下文信息利用：如果有上下文信息，可以尝试将短句与其前后音频片段拼接起来进行增强，利用更长的语音片段进行更有效的降噪和去混响。 2. 基于生成对抗网络（GAN）的增强： GAN 在生成逼真语音方面表现出色，可以尝试使用 GAN 来增强短句，使其更清晰。

18234414483 commented

2025-01-13 14:47:26 +08:00

好的谢谢

18234414483 closed this issue

2025-01-16 18:00:41 +08:00

Sign in to join this conversation.