Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

集思广益,有没有判断生成的音频是错误音频的好办法?方便重roll #1067

Open
BOCEAN-FENG opened this issue May 8, 2024 · 2 comments

Comments

@BOCEAN-FENG
Copy link

训练素材是1h纯人声素材

目前遇到的问题音频出现概率15%左右,类型如下:
①参考文本出现在生成音频中
②生成音频出现哈哈哈声
③生成音频错字
④生成音频有较长的空白段

目前尝试过
a.时长判断,但是这种情况只对于④有效
b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉

不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的

@Downupanddownup
Copy link
Contributor

Downupanddownup commented May 9, 2024

训练素材是1h纯人声素材

目前遇到的问题音频出现概率15%左右,类型如下: ①参考文本出现在生成音频中 ②生成音频出现哈哈哈声 ③生成音频错字 ④生成音频有较长的空白段

目前尝试过 a.时长判断,但是这种情况只对于④有效 b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉

不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的

说说我的个人经验吧,遇到参考音频问题比较大得情况,一般从这四个方面处理:

1,保证打标准确,虽然阿里的asr工具的常规文本准确率很高,但是在拟声词识别和文本标点符号,比如逗号、问号、叹号方面的识别不是很准确,所以需要手动处理一遍

2,调低gpt轮数,gpt轮数太高,出现问题频率以及英语能力的退化程度就越大。根据我的体感吧,2小时内的素材,gpt轮数10轮足够。

3,文本切分参数cut_punc,拉满,也就是设置成,.;?!、,。?!;:… 因为GPT-SoVITS主要是通过短句训练的,所以长句的推理效果都不太理想,用文本切分参数把长句切成断句,可以降低音频出现问题的概率

4,替换参考音频,不同参考音频出现问题的概率不同,有的很容易出现,有的很少出现。所以准备多条参考音频,比如20条,做批量推理,对推理结果做asr和文本相似度分析,从相似度分值高的里面找参考音频。

对于第4点,我做了一个筛选工具,有兴趣的话,你可以试下

#1044

上面是链接

@BOCEAN-FENG
Copy link
Author

感谢!很有帮助!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants