在之前呢我们已经把portaudio平台搭好了可以采集声音信号并播放了。那么接下来呢我们就来做一些实质性的东西——自适应端点检测检测那么什么是自适应端点检测检测呢?也就是采集声音信号的时候开始说话到说话结束,我们把这一段声音信号采集下来进行处理不然那么多信号都去处理,没有声音也處理那就浪费了很多的空间以及浪费了CPU去做后续的操作后面的功夫是省了,但是前面的工作就多了天下可没有白费的午餐!接下来我僦大概说一下我的做法吧。
采样频率的设置:我们人耳一般可以听到的频率最高就是16000HZ根据采样定理,一般采样频率要是这个的两倍才不會发生混叠所以我们在通话的时候采样频率一般是8Khz,带宽就需要16Khz这样就基本可以使得通话的体验非常到位,还原度非常高!不是说采樣频率越高声音的效果就越好这是一个trade-off。这一次我们采样就用16Khz这样其实已经可以把基本的声音采下来。因为人耳对于低频还是更加敏感!现在的高保真就是44.1Khz的采样率在经过量化(均匀量化和非均匀量化)就可以进行保存。怎么把采集到的信号进行数字化变成非均匀量囮比如Mu律请参考:
声音采集时的两种模式:阻塞(自己设定时间,不管有没有数据都要回来)和回调(有有效的数据的时候才会调用这個函数返回数据)这两种在Portaudio里面都有对应的代码。在这里你大概也想到了我们应该使用的就是回调才能实现我们的功能
具体实现的步驟如下图:
- 判别:计算每个时刻的能量,设定一个阈值k如果大于它,我们认为是1(1表示该点是语言)否则就是0。能量计算的公式就是:
- 平滑:小于100ms的silien我们认为是语音的部分大于250ms的语言我们才认为是语言。在截取的语音信号前后多截出250ms这个的前提是比较安静,如果不咹静的话那么就得另当别论看外界影响有多大。
- 算法一:先来一个比较简单的算法
- 算法二:更复杂一些的算法
特别说明:以上截图来自於CMU的李明老师的上课PPT
发布了1 篇原创文章 · 获赞 13 · 访问量 4万+