【求助帖】当前在做语音模型相关的项目,由于是对话音频,涉及到说话者身份识别客户和客服,但是当前spk或语音分离模型效果并不好,特别是短句,比如说你好,了解这种效果就很差,所以想提升一下效果,想请教一下有没有什么好的提升思路;比如说语音增强方式或者优化spk识别效果提升 #473

Closed
opened 2025-01-10 17:19:01 +08:00 by 18234414483 · 2 comments
No description provided.

可以考虑这些方法:

  1. 降噪:比如谱减法;维纳滤波;深度学习方法: 使用深度神经网络(DNN、CNN、RNN)进行降噪。
  2. 去混响:使用深度学习模型学习去混响的映射关系,例如使用 Wave-U-Net 等模型。
    针对短句的增强:
  3. 上下文信息利用: 如果有上下文信息,可以尝试将短句与其前后音频片段拼接起来进行增强,利用更长的语音片段进行更有效的降噪和去混响。
  4. 基于生成对抗网络(GAN)的增强: GAN 在生成逼真语音方面表现出色,可以尝试使用 GAN 来增强短句,使其更清晰。
可以考虑这些方法: 1. 降噪:比如谱减法;维纳滤波;深度学习方法: 使用深度神经网络(DNN、CNN、RNN)进行降噪。 2. 去混响:使用深度学习模型学习去混响的映射关系,例如使用 Wave-U-Net 等模型。 针对短句的增强: 1. 上下文信息利用: 如果有上下文信息,可以尝试将短句与其前后音频片段拼接起来进行增强,利用更长的语音片段进行更有效的降噪和去混响。 2. 基于生成对抗网络(GAN)的增强: GAN 在生成逼真语音方面表现出色,可以尝试使用 GAN 来增强短句,使其更清晰。
Author

好的谢谢

好的谢谢
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#473
No description provided.