목록Machine Learning/STT (2)
elevne's Study Note

본래는 Open Source로 공개되어있는 Kospeech를 모델로 사용하려고 하였으나 찾아보니 사전학습 모델이 따로 공개되어 있지 않아서... 결국 다른 방법을 찾아보게 되었다. (음성인식 모델을 직접 학습시키기에는 너무 부담스러운 면이 많았다.) 그래서 찾은 방법 중 하나가 SpeechRecognition 라이브러리를 사용하는 것이다. 우선 다음과 같은 명령어로 설치를 진행해준다. pip install SpeechRecognition 위 라이브러리를 사용하여 따로 모델을 만들어주지 않고도 STT를 간단하게 진행할 수 있다. Speech Recognition 라이브러리는 wav, aiff, aiff-c, flac 음성파일 형식을 지원한다고 한다. 또, 시각화와 이후 전처리를 위해 다음 라이브러리들도 설..

음성인식은 사람의 음성으로부터 발화한 Text를 얻어내는 기술이다. 영어로는 Speech-to-Text로, STT라고 많이 쓰인다. 현재 음성인식 기능은 기능대화 음성인식이 주를 이룬다고 한다. 왜냐하면 사용자가 어느 질문/발화를 할지 어느정도 예측이 가능하기 때문이다. 기능대화 음성인식은 예측 가능한 범위 내에서 시나리오를 만들거나 모델을 만들 수 있다. 하지만 기능대화가 아니라 일상적인 대화의 음성인식은 난이도가 매우 높다고 한다. 무한한 경우의 문맥, 음성파일에 있는 노이즈 등 너무 많은 변수가 있다. 하지만 다행히도 최근 몇 년간 딥러닝의 발전으로 음성인식 기술의 발전이 빠르게 이루어지고 있다고 한다. 딥러닝 음성인식 모델은 End-to-End로 이루어진다. 통째로 Input audio 파일을 넣..