【求助帖】想请假一下各位大佬怎么解决语音 spk模型在面对两个对话者场景结束语是嗯，再见，拜拜这种短语句识别不准。以及在识别的过程中，如果中间对话穿插嗯，好的这种类型的短句，也并不会识别分开两个说话者关于当前问题，有什么好的优化方向或者思路嘛？ #478

New Issue

18234414483 · 2025-01-16T18:02:29+08:00

18234414483 commented

No description provided.

12019701659cs commented

可以试下结合语音识别（ASR）和说话人分离，将语音识别和说话人分离任务联合优化，利用 ASR 的文本信息来辅助说话人分离。例如，通过识别出的文本内容判断说话者。在 ASR 输出后，添加后处理规则。例如，如果识别出“嗯”、“好的”等短句，可以根据上下文或说话者切换的频率，动态调整说话者标签。

18234414483 commented

老师您好，您的思路我尝试仍然发现存在问题，因为数据量相对较大，所以规则判断还是过于局限，并不能够达到目前的要求呢
目前有结合asr，spk，vad，以及punc模型

老师您好，您的思路我尝试仍然发现存在问题，因为数据量相对较大，所以规则判断还是过于局限，并不能够达到目前的要求呢目前有结合asr，spk，vad，以及punc模型

12019701659cs commented

也可以用stt模型来转成文字，用llm来辅助识别下。或者专门训练一个spk模型来解决此类问题

18234414483 commented

好的

Sign in to join this conversation.

No Label

No Milestone

No project

No Assignees

2 Participants

Notifications

Due Date

The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#478