[Speech] Multi-channel Speech Separation (다채널 음성분리)
Inter-channel Feature채널간 정보를 이용한 음성분리
(1) Inter-channel Phase Difference (IPD)
F. Bahmaninezhad, J. Wu, R. Gu, S. Zhang, Y. Xu, M. Yu, and D. Yu, “A Comprehensive Study of Speech Separation: Spectrogram vs Waveform Separation,” in INTERSPEECH, 2019.
\[\text{IPD}_{i,t,f}=∠\left(\frac{Y_{i_1, t, f}}{Y_{i_2,t,f}}\right ), i = 1,2,...,6\]- 채널간 phase의 차이를 채널간 정보로 사용
- IPD에서 나타난 phase difference는 채널간 time difference of arrival (TDoA) 정보를 내포하고 있음
(2) Inter-channel Phase Difference (ICD)
R. Gu et al., “Enhancing End-to-End Multi-Channel Speech Separation Via Spatial Feature Learning,“ in ICASSP, 2020.
- 채널간 convolutonal feature의 차이를 채널간 정보로 사용하였더니 IPD보다 성능이 더 좋아짐
(3) 2D-Conv
J. Zhang, C. Zorilă, R. Doddipatla, and J. Barker, “On End-to-End Multi-channel Time Domain Speech Separation in Reverberant Environments,“ in ICASSP, 2020.
- (2)와 유사한데, 두 채널의 신호를 2D convolution을 이용해 채널간 feature를 만들어 줌
Time-domain Beamforming을 이용한 음성분리
(1) FasNet
Y. Luo, E. Ceolini, C. Han, S.-C. Liu, and N. Mesgarani, “FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing,” in IEEE ASRU, 2019.
- FaSNet은 separation을 위한 방법은 아니지만, (2)에 사용되는 time-domain beamforming 방법
- Frequency-domain에서의 beamforming은 일정 frequency resolution을 유지해주기 위해 긴 window를 사용하여 short-time analysis를 하기 때문에, latency가 발생하는 문제를 풀고자 함
- 각 채널의 신호에 대한 beamforming filter를 temporal convolutional networks (TCN)을 이용해 구하여 Filter-and-Sum operation으로 signal of interest (SOI)를 추정하게 됨
(2) FasNet + TAC
Y. Luo, Z. Chen, N. Mesgarani, and T. Yoshioka, “End-to-end microphone permutation and number invariant multi-channel speech separation,” in ICASSP, 2020.
- FaSNet에서 TCN 대신 Dual-path RNN (DPRNN) block과 Trasnform-Average-Concatenate (TAC) 모듈을 이용해 각 채널별로 각 source에 대해 seperation 된 filter를 추정
- Filter-and-Sum operation으로 단채널의 분리된 음원을 복구시킴
(3) iFasNet
Y. Luo and N. Mesgarani, “Implicit Filter-and-sum Network for End-to-end Multi-channel Speech Separation,” in INTERSPEECH, 2021.
- (2)에서 모든 채널에 대해 separation을 하면 계산량도 많아 MISO 구조로 변경하고, 성능 소폭 상승
Leave a comment