【求助帖】想请假一下各位大佬 怎么解决 语音 spk模型在面对两个对话者场景 结束语是嗯 , 再见,拜拜这种短语句识别不准。 以及 在识别的过程中,如果中间对话穿插 嗯,好的 这种类型的短句,也并不会识别分开两个说话者 关于当前问题,有什么好的优化方向 或者 思路嘛? #478

Open
opened 2025-01-16 18:02:29 +08:00 by 18234414483 · 4 comments
No description provided.

可以试下结合语音识别(ASR)和说话人分离,将语音识别和说话人分离任务联合优化,利用 ASR 的文本信息来辅助说话人分离。例如,通过识别出的文本内容判断说话者。在 ASR 输出后,添加后处理规则。例如,如果识别出“嗯”、“好的”等短句,可以根据上下文或说话者切换的频率,动态调整说话者标签。

可以试下结合语音识别(ASR)和说话人分离,将语音识别和说话人分离任务联合优化,利用 ASR 的文本信息来辅助说话人分离。例如,通过识别出的文本内容判断说话者。在 ASR 输出后,添加后处理规则。例如,如果识别出“嗯”、“好的”等短句,可以根据上下文或说话者切换的频率,动态调整说话者标签。
Author

老师您好,您的思路我尝试仍然发现存在问题,因为数据量相对较大,所以规则判断还是过于局限,并不能够达到目前的要求呢
目前有结合asr,spk,vad,以及punc模型

老师您好,您的思路我尝试仍然发现存在问题,因为数据量相对较大,所以规则判断还是过于局限,并不能够达到目前的要求呢 目前有结合asr,spk,vad,以及punc模型

也可以用stt模型来转成文字,用llm来辅助识别下。或者专门训练一个spk模型来解决此类问题

也可以用stt模型来转成文字,用llm来辅助识别下。或者专门训练一个spk模型来解决此类问题
Author

好的

好的
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#478
No description provided.