[Speech] Multi-channel Speech Separation (다채널 음성분리)

1 minute read

Inter-channel Feature채널간 정보를 이용한 음성분리

(1) Inter-channel Phase Difference (IPD)

F. Bahmaninezhad, J. Wu, R. Gu, S. Zhang, Y. Xu, M. Yu, and D. Yu, “A Comprehensive Study of Speech Separation: Spectrogram vs Waveform Separation,” in INTERSPEECH, 2019.

\[\text{IPD}_{i,t,f}=∠\left(\frac{Y_{i_1, t, f}}{Y_{i_2,t,f}}\right ), i = 1,2,...,6\]
  • 채널간 phase의 차이를 채널간 정보로 사용
  • IPD에서 나타난 phase difference는 채널간 time difference of arrival (TDoA) 정보를 내포하고 있음

(2) Inter-channel Phase Difference (ICD)

R. Gu et al., “Enhancing End-to-End Multi-Channel Speech Separation Via Spatial Feature Learning,“ in ICASSP, 2020.

  • 채널간 convolutonal feature의 차이를 채널간 정보로 사용하였더니 IPD보다 성능이 더 좋아짐

(3) 2D-Conv

J. Zhang, C. Zorilă, R. Doddipatla, and J. Barker, “On End-to-End Multi-channel Time Domain Speech Separation in Reverberant Environments,“ in ICASSP, 2020.

  • (2)와 유사한데, 두 채널의 신호를 2D convolution을 이용해 채널간 feature를 만들어 줌

Time-domain Beamforming을 이용한 음성분리

(1) FasNet

Y. Luo, E. Ceolini, C. Han, S.-C. Liu, and N. Mesgarani, “FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing,” in IEEE ASRU, 2019.

  • FaSNet은 separation을 위한 방법은 아니지만, (2)에 사용되는 time-domain beamforming 방법
  • Frequency-domain에서의 beamforming은 일정 frequency resolution을 유지해주기 위해 긴 window를 사용하여 short-time analysis를 하기 때문에, latency가 발생하는 문제를 풀고자 함
  • 각 채널의 신호에 대한 beamforming filter를 temporal convolutional networks (TCN)을 이용해 구하여 Filter-and-Sum operation으로 signal of interest (SOI)를 추정하게 됨

(2) FasNet + TAC

Y. Luo, Z. Chen, N. Mesgarani, and T. Yoshioka, “End-to-end microphone permutation and number invariant multi-channel speech separation,” in ICASSP, 2020.

  • FaSNet에서 TCN 대신 Dual-path RNN (DPRNN) block과 Trasnform-Average-Concatenate (TAC) 모듈을 이용해 각 채널별로 각 source에 대해 seperation 된 filter를 추정
  • Filter-and-Sum operation으로 단채널의 분리된 음원을 복구시킴

(3) iFasNet

Y. Luo and N. Mesgarani, “Implicit Filter-and-sum Network for End-to-end Multi-channel Speech Separation,” in INTERSPEECH, 2021.

  • (2)에서 모든 채널에 대해 separation을 하면 계산량도 많아 MISO 구조로 변경하고, 성능 소폭 상승

Leave a comment