본문 바로가기
programming/Python

1번째 준비 - 파이썬 음성을 텍스트로 STT 툴 만들기 how to convert speech to text stt in python

by 개코 - 개발과 코딩 2022. 3. 1.

stt 는 음성을 텍스트로 만드는 것을 말한다. 파이썬으로 stt 툴을 만드는 것은 간단하다. 파이썬을 조금 할 줄 알고 SpeechRecognizer 라이브러리를 사용하면 음성을 텍스트로 만드는 것이 가능하다. 여기서는 유튜브에서 영상을 받고 음성을 추출한 후 텍스트로 만드는 과정을 소개해 본다. 어떤 것이 필요한지 준비물만 간단히 언급해 본다.

1번째 준비 - 파이썬 음성을 텍스트로 만들기
how to convert speech to text stt in python

언젠가부터 유튜브의 영상을 다운로드하는 앱이 늘어났다.

이제는 그 음성을 텍스트로 추출하는 앱들도 나오고 있다.

성능이 좋을수록 유료인 경우들이 많다.

그럼에도 이런 것들 만들어 보는 것은 개발자라면 한번 해볼만 하지 않을까 싶다.

파이썬이면 만들기가 편하다.

풍부한 라이브러리와 샘플들이 여기저기 널려있기 때문.

STT Speech To Text

음성을 텍스트로 만드는 것을 STT 툴이라 한다.

Speech To Text 의 약자로 어떤 검색엔진이든 stt library 만 검색해도 다양한 것들이 많다.

이 중 가장 많이 사용하는 것이 SpeechRecognizer 이다.

이 라이브러리를 간단히 테스트해 본 결과 나름의 괜찮은 성능을 발휘하는 것을 볼 수 있었다.

물론, 긴 영상 파일을 음성으로 추출하고 텍스트로 변환했을 때 뜻하지 않은 일들이 발생했지만 이것 또한 검색하고 해결하는 과정이다.

stt 툴 제작 준비

stt 툴을 만들기 위해선 몇가지 준비가 필요하다.

당연하겠지만 프로그래밍도 조금은 할 줄 알아야 하지만 굳이 프로그래밍을 익힐 필요는 없다.

남들이 해 놓은 것들 많이 따라해도 공부가 된다.

  • 파이썬
    프로그래밍 언어 - stt 툴을 만들기 위해 코딩할 언어이다.
  • SpeechRecognizer
    음성을 텍스트로 변환한다.
    변환시 제약이 있다. 천천히 해결해 본다.
  • pytube
    유튜브 영상을 다운로드 하고, 영상의 정보를 얻는다.
  • ffmpeg
    영상을 변환하고 추출하기 위해 사용한다.
반응형

댓글