다양한 억양을 가진 외국인들과 미팅을 하는중인데 화자분리가 어려워서 스피커들이 섞입니다.
줌 화면을 스크래핑하거나 크롬 화면을 스크래핑해서 현재 화자에 대한 정보를 추가해서 좀 더 디텍트가 되면 좋겠습니다.