关于不同生成snr带躁语音训练的问题 #34

YongyuG · 2019-05-28T09:10:03Z

你好,感谢你们的工作,
我想请问一下,目前你们原始代码只能对一个固定信噪比的条件下进行训练和测试,
但是如果你论文所说,我们需要去解决对不同 SNR的语音进行增强, 所以我希望能用不同的snr的语音数据拿去训练得到一个比较general的模型. 之前也有类似的issue问过这个问题,只是我不太理解那个答案.

我的做法是在pack features那一步把之前生成的不同snr的mixture features集合起来到一个data.h5中去, 但问题是,这样在compute scaler的时候生成scaler.p文件会有问题,因为data.h5的信噪比不同了. 导致了在main_dnn.py里面训练时候scale data时会有问题, 请问你们是如何做的

谢谢

qiuqiangkong · 2019-05-28T16:51:26Z

你好，scalar的具体数值并不重要，只要训练和测试用的是同一个scalar，就可以。在很多应用场景中，我们也会用在别的数据上计算的scalar用在speech enhancement中。 Best wishes, Qiuqiang

…

________________________________ From: Yongyu Gao <[email protected]> Sent: 28 May 2019 10:10 To: yongxuUSTC/sednn Cc: Subscribed Subject: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34) 你好,感谢你们的工作, 我想请问一下,目前你们原始代码只能对一个固定信噪比的条件下进行训练和测试, 但是如果你论文所说,我们需要去解决对不同 SNR的语音进行增强, 所以我希望能用不同的snr的语音数据拿去训练得到一个比较general的模型. 之前也有类似的issue问过这个问题,只是我不太理解那个答案. 我的做法是在pack features那一步把之前生成的不同snr的mixture features集合起来到一个data.h5中去, 但问题是,这样在compute scaler的时候生成scaler.p文件会有问题,因为data.h5的信噪比不同了. 导致了在main_dnn.py里面训练时候scale data时会有问题, 请问你们是如何做的谢谢 ― You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F34%3Femail_source%3Dnotifications%26email_token%3DADFXTSMJRWLG6GDGIJ3MQZDPXTZGXA5CNFSM4HQBJ7Q2YY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4GWFQVSQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C317580c1eda544eeb72308d6e34c4674%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946314082693058&sdata=omkCP%2BOo4sWrPAAWRXp4er85ruBgFYcpQasdaqR2vR8%3D&reserved=0>, or mute the thread<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FADFXTSIAIFCUFX7ORVXCMY3PXTZGXANCNFSM4HQBJ7QQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C317580c1eda544eeb72308d6e34c4674%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946314082693058&sdata=ZhAvEQxwx8H77RqiP8c8V0V9DLujXbhVMC7nzIcy%2Fx8%3D&reserved=0>.

YongyuG · 2019-05-29T03:34:21Z

谢谢您的回复,
我这里有三个问题希望您能回复一下

我现在用不同SNR的训练数据去训练的思路是: 我在把feature放进去nn训练之前,在scale data之后把它们的数据和label concatenate在一起,这样的做法虽然暴力,但是应该是合理的吧?? 然后因为不同信噪比生成的scaler不一样的,我不明白的是训练可以根据不同信噪比去乘上相对应的scaler,但是在真实做inference的时候,不确定snr, 这个scalar该用哪个. 或者说我在训练时不管数据是0db, 5db或者10db的snr,我都让它全部乘上比如0dbsnr生成的scalar就行了,测试同理
我用aishell和musan的noise-free简单的训练了一版出来,但他们的train loss和test loss 太高了, 请问是我的数据不够多, noise类型覆盖的不够大吗, 如图所示

因为我在另外一个项目用同样的干净数据和噪音类型, loss能降到3%左右, 只不过数据量会比我在sednn用的大很多

3.我想请问一下你们这个论文和代码的目的主要是提高asr的wer还是提高人耳的主观可懂度, 因为我发现模型增强语音后,或多或少会有些失真,wer并不会有很显著的提高

谢谢

你好，scalar的具体数值并不重要，只要训练和测试用的是同一个scalar，就可以。在很多应用场景中，我们也会用在别的数据上计算的scalar用在speech enhancement中。 Best wishes, Qiuqiang
…
________________________________ From: Yongyu Gao [email protected] Sent: 28 May 2019 10:10 To: yongxuUSTC/sednn Cc: Subscribed Subject: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34) 你好,感谢你们的工作, 我想请问一下,目前你们原始代码只能对一个固定信噪比的条件下进行训练和测试, 但是如果你论文所说,我们需要去解决对不同 SNR的语音进行增强, 所以我希望能用不同的snr的语音数据拿去训练得到一个比较general的模型. 之前也有类似的issue问过这个问题,只是我不太理解那个答案. 我的做法是在pack features那一步把之前生成的不同snr的mixture features集合起来到一个data.h5中去, 但问题是,这样在compute scaler的时候生成scaler.p文件会有问题,因为data.h5的信噪比不同了. 导致了在main_dnn.py里面训练时候scale data时会有问题, 请问你们是如何做的谢谢 ―

qiuqiangkong · 2019-05-29T03:56:04Z

您好！ 1. 我现在用不同SNR的训练数据去训练的思路是: 我在把feature放进去nn训练之前,在scale data之后把它们的数据和label concatenate在一起,这样的做法虽然暴力,但是应该是合理的吧?? 为什么要和label concatenate一起呢？ 2. 我用aishell和musan的noise-free简单的训练了一版出来,但他们的train loss和test loss 太高了, 请问是我的数据不够多, noise类型覆盖的不够大吗, 如图所示因为我在另外一个项目用同样的干净数据和噪音类型, loss能降到3%左右, 只不过数据量会比我在sednn用的大很多数据量不够的话会导致loss下不来。最好用1000条以上语音训练。 3.我想请问一下你们这个论文和代码的目的主要是提高asr的wer还是提高人耳的主观可懂度, 因为我发现模型增强语音后,或多或少会有些失真,wer并不会有很显著的提高论文里主要看客观评价指标PESQ，实际应用中的确会出现PESQ和人耳主观可懂度不一致的情况。主观评测不可重复且需要花更多时间，所以目前只用客观评价指标。目前有一些论文讨论主观和客观评测不一致。 Best wishes, Qiuqiang

…

________________________________ From: Yongyu Gao <[email protected]> Sent: 29 May 2019 04:34 To: yongxuUSTC/sednn Cc: Kong, Qiuqiang (PG/R - Elec Electronic Eng); Comment Subject: Re: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34) 谢谢您的回复, 我这里有三个问题希望您能回复一下 1. 我现在用不同SNR的训练数据去训练的思路是: 我在把feature放进去nn训练之前,在scale data之后把它们的数据和label concatenate在一起,这样的做法虽然暴力,但是应该是合理的吧?? 2. 我用aishell和musan的noise-free简单的训练了一版出来,但他们的train loss和test loss 太高了, 请问是我的数据不够多, noise类型覆盖的不够大吗, 如图所示 [2019-05-29 11-23-19 的屏幕截图]<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F33458902%2F58527225-70797980-8204-11e9-9abc-b2c2328ea1e4.png&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C559624f62ab04e88d3ce08d6e3e68aeb%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946976647178629&sdata=QhCA9DhiHbAEUi8wSxW3KLum3MuTIASW5pVWh3BVqZg%3D&reserved=0> 因为我在另外一个项目用同样的干净数据和噪音类型, loss能降到3%左右, 只不过数据量会比我在sednn用的大很多 3.我想请问一下你们这个论文和代码的目的主要是提高asr的wer还是提高人耳的主观可懂度, 因为我发现模型增强语音后,或多或少会有些失真,wer并不会有很显著的提高谢谢你好，scalar的具体数值并不重要，只要训练和测试用的是同一个scalar，就可以。在很多应用场景中，我们也会用在别的数据上计算的scalar用在speech enhancement中。 Best wishes, Qiuqiang …

________________________________ From: Yongyu Gao [email protected]<mailto:[email protected]> Sent: 28 May 2019 10:10 To: yongxuUSTC/sednn Cc: Subscribed Subject: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F34&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C559624f62ab04e88d3ce08d6e3e68aeb%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946976647188617&sdata=H2DKy%2FWvAhKz8HB7udaLGZufOzz9oWt12wpTCPZ1cHs%3D&reserved=0>) 你好,感谢你们的工作, 我想请问一下,目前你们原始代码只能对一个固定信噪比的条件下进行训练和测试, 但是如果你论文所说,我们需要去解决对不同 SNR的语音进行增强, 所以我希望能用不同的snr的语音数据拿去训练得到一个比较general的模型. 之前也有类似的issue问过这个问题,只是我不太理解那个答案. 我的做法是在pack features那一步把之前生成的不同snr的mixture features集合起来到一个data.h5中去, 但问题是,这样在compute scaler的时候生成scaler.p文件会有问题,因为data.h5的信噪比不同了. 导致了在main_dnn.py里面训练时候scale data时会有问题, 请问你们是如何做的谢谢 D ― You are receiving this because you commented. Reply to this email directly, view it on GitHub<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F34%3Femail_source%3Dnotifications%26email_token%3DADFXTSJHLAMGTBTT2Y2E53TPXX2T5A5CNFSM4HQBJ7Q2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODWOB4UI%23issuecomment-496770641&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C559624f62ab04e88d3ce08d6e3e68aeb%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946976647188617&sdata=yAxnNzXT4dLFbjbZZrXDQcpHskqG0pLLkMBIJioLTho%3D&reserved=0>, or mute the thread<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FADFXTSIU25KAFW3PZ3FGSFTPXX2T5ANCNFSM4HQBJ7QQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7C559624f62ab04e88d3ce08d6e3e68aeb%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636946976647198611&sdata=AaIJB2SX6ajPzhKVRF9M%2BmEUAQjsiICBBGQaGdVqJKw%3D&reserved=0>.

YongyuG · 2019-05-29T06:02:07Z

hi, 感谢回复,

我是不同snr的data与data concate, 然后label与labelconcate使之维度与data匹配, 目的是为了让nn输入覆盖不同snr
我用了1万多条得到这个loss, 有点奇怪, 你们之前训练的loss一般是多少%
你们尝试过对比asr的效果么

qiuqiangkong · 2019-05-29T06:35:25Z

1. 我是不同snr的data与data concate, 然后label与labelconcate使之维度与data匹配, 目的是为了让nn输入覆盖不同snr 这样是可以的。 2. 我用了1万多条得到这个loss, 有点奇怪, 你们之前训练的loss一般是多少% 在TIMIT上训练的loss结果可以参见https://github.com/yongxuUSTC/sednn/tree/master/mixture2clean_dnn 3. 你们尝试过对比asr的效果么我们没有对比过ASR。 Best wishes, Qiuqiang

…

________________________________ From: Yongyu Gao <[email protected]> Sent: 29 May 2019 07:02 To: yongxuUSTC/sednn Cc: Kong, Qiuqiang (PG/R - Elec Electronic Eng); Comment Subject: Re: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34) hi, 感谢回复, 1. 我是不同snr的data与data concate, 然后label与labelconcate使之维度与data匹配, 目的是为了让nn输入覆盖不同snr 2. 我用了1万多条得到这个loss, 有点奇怪, 你们之前训练的loss一般是多少% 3. 你们尝试过对比asr的效果么 ― You are receiving this because you commented. Reply to this email directly, view it on GitHub<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F34%3Femail_source%3Dnotifications%26email_token%3DADFXTSP5Q3MFMNJQLMQRPGTPXYL6BA5CNFSM4HQBJ7Q2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODWOIJ7Y%23issuecomment-496796927&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Cd6d2c12f3f344bf9b32508d6e3fb2fa2%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636947065310239994&sdata=x5K2vEZ3J2eVBYA56D7OppDttjOM8ErNPpSa5sKGjHA%3D&reserved=0>, or mute the thread<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FADFXTSKDPJHC367F5KG6HHDPXYL6BANCNFSM4HQBJ7QQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Cd6d2c12f3f344bf9b32508d6e3fb2fa2%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636947065310239994&sdata=0p9p201gvvgYVLMjousKXJlTPcvddqGLLU%2B9151rtAw%3D&reserved=0>.

YongyuG · 2019-05-29T11:09:01Z

好的,谢谢,

YongyuG · 2019-05-30T02:32:51Z

不好意思,再请教一下
不同的snr有不同的scaler,我理解的scaler作用是用normalizatioin的,那么如果我train是对不同的snr的数据用scaler transfrom去训练的,我在做inference的时候该怎么选择scaler呢.

因为在现实场景下我无法知道要进行增强的音频的snr, 我该如何做inference,如果选择用什么scaler呢

qiuqiangkong · 2019-05-31T07:42:39Z

在inference时使用和训练时一样的scalar。 Best wishes, Qiuqiang

…

________________________________ From: Yongyu Gao <[email protected]> Sent: 30 May 2019 03:32 To: yongxuUSTC/sednn Cc: Kong, Qiuqiang (PG/R - Elec Electronic Eng); Comment Subject: Re: [yongxuUSTC/sednn] 关于不同生成snr带躁语音训练的问题 (#34) 不好意思,再请教一下不同的snr有不同的scaler,我理解的scaler作用是用normalizatioin的,那么如果我train是对不同的snr的数据用scaler transfrom去训练的,我在做inference的时候该怎么选择scaler呢. 因为在现实场景下我无法知道要进行增强的音频的snr, 我该如何做inference,如果选择用什么scaler呢 ― You are receiving this because you commented. Reply to this email directly, view it on GitHub<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F34%3Femail_source%3Dnotifications%26email_token%3DADFXTSMJJN6OGB7HPL4Z3IDPX44FJA5CNFSM4HQBJ7Q2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODWRFQGI%23issuecomment-497178649&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ce442b90118ae4f536e0908d6e4a71e13%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636947803833695063&sdata=LnvUdHgXGOAjKvWWeGHbWD%2BgSA0nyRtdzX9bCZLfhWA%3D&reserved=0>, or mute the thread<https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FADFXTSM3SLQ3LAPTUR54KNTPX44FJANCNFSM4HQBJ7QQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ce442b90118ae4f536e0908d6e4a71e13%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C636947803833705056&sdata=vcyBRLBwYUqAXegWTGvm759hRmlTRemMo3ycQ4JK3bw%3D&reserved=0>.

YongyuG · 2019-05-31T09:57:29Z

好的谢谢,
我看代码上计算scaler和inver scaler那里好像没有把global equalization也算上去,只有mean为0, 方差为1的 normalization. 换句话说, paper上的global equalization和nat都要自己开发然后实验对吧

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于不同生成snr带躁语音训练的问题 #34

关于不同生成snr带躁语音训练的问题 #34

YongyuG commented May 28, 2019

qiuqiangkong commented May 28, 2019 via email

YongyuG commented May 29, 2019 •

edited

qiuqiangkong commented May 29, 2019 via email

YongyuG commented May 29, 2019

qiuqiangkong commented May 29, 2019 via email

YongyuG commented May 29, 2019

YongyuG commented May 30, 2019

qiuqiangkong commented May 31, 2019 via email

YongyuG commented May 31, 2019

关于不同生成snr带躁语音训练的问题 #34

关于不同生成snr带躁语音训练的问题 #34

Comments

YongyuG commented May 28, 2019

qiuqiangkong commented May 28, 2019 via email

YongyuG commented May 29, 2019 • edited

qiuqiangkong commented May 29, 2019 via email

YongyuG commented May 29, 2019

qiuqiangkong commented May 29, 2019 via email

YongyuG commented May 29, 2019

YongyuG commented May 30, 2019

qiuqiangkong commented May 31, 2019 via email

YongyuG commented May 31, 2019

YongyuG commented May 29, 2019 •

edited