개발공부/AI

한국어 STT :: Whisper

bboungg 2025. 5. 15. 14:44

whisper 는 openai에서 공개한 오픈소스이고 한국어 지원이 되는 모델이다.

모델은 크기에 따라 tiny(39M) ~ turbo(809M) 까지 나눠져있다.

이중 base, medium, large 모델을 사용해봤다.

물론 정확도는 크기가 큰 모델일수록 높지만, 각 환경에 맞춰서 사용하기엔 medium 모델도 괜찮았다.

 

RTX 3090 (24GB) 한개로 테스트 했을때 동시에 여러작업을 하기위해서 medium을 선택한 것도 있다.

사용 예시는 openai에서 잘 공개해놨기 때문에 그대로 모델을 다운받고 사용하면 된다.

 

가상환경에 필요한 라이브러리들을 설치하고, 호환되는 torch로 잘 설치하면 gpu를 잘 사용한다.

가끔 torch를 설치해도 gpu가 안 잡히는 경우가 있음

 

웹 소켓을 사용하여 실시간으로 처리 할때 5초단위로 청크를 나눠서 작업했는데 말이 끊어짐에 따라 정확도가 떨어지는 경우가 있었다.

 

그리고 잡음, 소음 등의 말이 아닌 소리에도 whisper 모델이 종종 '감사합니다', '다음에 또 만나요' 등의 학습된 내용으로 이상하게 변환 되는 경우가 있었다. 

이 경우에는 오디오 레벨의 임계값을 설정하여 어느정도 보완이 가능하다.