The best way to transcribe an interview without having to do shit or pay

First up, what do we want from a transcribing experience? Accuracy is important, it has to be easy to use, and it doesn’t hurt if it’s free.

실시간 받아쓰기 앱, 구글 트랜스크라이브 <출처=구글 유튜브 캡처)/IT DONGAH


받아쓰기의 인공지능화 - 구글 트랜스크라이브

    후천적 청각장애(혹은 난청)로 인해 (말은 할 수 있지만) 제대로 듣지 못하는 이들은, 주로 종이에 직접 글로 써가며 단문 대화 위주로 소통한다. 번거롭고 불편하지만 이들이 일상에서 (글로 쓰는 것만큼) 간단히 소통할 수 있는 방법이 딱히 없기 때문이다.

구글이 최근 출시한 '라이브 트랜스크라이브'는 이처럼 청각장애나 난청으로 불편을 겪는 이들을 위한 유용하고 진정 기특한 앱이다. 기술이 존재하는(혹은 존재해야 하는) 결정적인 이유를 이 앱이 보여준다.

라이브 트랜스크라이브는 구글의 인공지능 음성인식 기술을 적용해, 사람의 대화 목소리를 자동 인식하여 이를 글자로 보여준다. 마치 뉴스에서 보던 외국어 실시간 통역 자막처럼, 대화자의 육성을 실시간으로 글자로 받아 적는다.

구글 플레이스토어에는 '실시간 자막'의 이름으로 등록돼 있고, 무료로 사용할 수 있다. 트랜스크라이브는 설치 후 별도의 설정은 필요 없고, 실행하면 곧바로 음성 인식 대기 모드가 된다.

<플레이스토어에서 무료로 내려받아 사용할 수 있다>

설정 항목이 있긴 한데, 여기서는 글자 크기, 배경 색상, 기본 언어(보조 언어 포함), 출력된 글자(스크립트) 저장 기간 등의 부가 설정을 할 수 있다.

참고로, 트랜스크라이브는 19년 6월 현재 전세계 인구 80% 이상이 사용하는 70개국 언어를 지원한다. 출력된 글자는 기본으로 3일간 스마트폰에 저장된다(저장 허용 시).

음성 인식 대기 상태에서 말을 하면 단어/문장을 인식해 그대로 글자로 출력해 보여준다. 시끄럽지 않은 환경에서 분명한 발음으로 말하면, 예상/기대보다 훨씬 정확하게 글자로 받아 적는다. 물론 사람의 육성, 발음, 억양 내지는 모호한 특정 단어 등에 따라 종종 오탈자나 다른 단어를 출력하긴 하지만, 쉼 없는 장문이 아닌 중단문 위주의 일상 대화문이라면 상당히 정확한 결과를 보여준다. 종이에 글로 성급히 써서 소통하는 것보다는 한결 간편하고 분명한 의사전달이 가능하리라 본다. 

대화형 문장은 거의 정확히 인식, 받아쓴다

<유튜브 내 설민석 한국사 강사의 강의 영상 음성을 듣고 받아 쓴 결과>

이 정도의 음성 인식 정확도라면 대화/인터뷰 등을 글자로 적어야 하는(타이핑해야 하는) 일선 기자들에게도 적지 않은 도움이 된다. 스마트폰용 마이크를 연결하면 음성 인식 정확도를 더욱 높일 수 있다.

이 밖에 트랜스크라이브는 사람 육성 외 사물 소리도 부분적으로 인식해 이를 표시한다. 예를 들어, 실제 박수 소리가 입력되면 '박수소리'로, 고양이 '야옹' 소리는 '고양이 소리', 개가 짖으면 '개 소리'로, 자동차 경적소리라면 '자동차 경적' 등으로 표시된다. 신기할 정도로 잘 듣고 분석, 구분한다. 

<사람의 육성 외에 사물 소리도 분석, 파악해 표시한다>

아무래도 아직까지는 한국어보다 영어 인식 정확도가 상대적으로 높은데, 언어를 'English'로 설정하고 CNN 뉴스나 BBC 뉴스를 들려주면, 놀랄 만큼 정확하고 빠른 속도로 영문 글자 자막을 착착 만들어 낸다. 출시 초기 버전이 이 정도의 정확도를 보인다면, 향후 시간이 지나면서 인공지능/머신러닝 기술로 인해 인식 정확도는 한층 더 향상되리라 기대한다.

구글은 트랜스크라이브를 개발하며 청각장애/난청 환자 분야의 최고 대학인 미국 갤러뎃(Gallaudet) 대학교(워싱던 D.C. 소재)와 협력했고, 청각장애우들의 사전 테스트를 통해 주요 피드백을 반영했다. 구글은 이후로도 트랜스크라이브의 품질을 지속 개선하려 다양한 피드백을 모으고 있다.

Being a (lazy) writer, I’m always on the prowl for an easy solution to transcribe interviews. I’ve tried dozens of free apps and trials, but the one that really stands out for English is Otter.ai. Don’t worry though, I’ll also delve into a non-English solution further down.

Transcribing interviews in English

Honestly, I don’t like being overly positive when it comes to services and products, but the free version of Otter.ai is the very best solution I’ve found so far. It’s extremely simple and easy to use:

You create an account

Upload an audio file or record directly via Otter.ai

Then it automatically churns out a transcript in a few minutes, split up into paragraphs with time stamps, and each section is marked by different speakers

Then you can edit, listen back to, and search the interview, as well as change the speakers’ names to indicate who is talking (and it’ll update automatically throughout)

Credit: Otter.ai

Otter.ai automatically sorts your transcriptions by time, but you can also create folders and share them with a group of people.

Credit: Otter.ai

It also generates automatic keyword from the interview and separates quotes based on who is talking.

The free version comes with plenty of options and 600 minutes of transcription every month, which is more than enough for my usage. But there’s also a premium paid version which provides 6,000 minutes and comes with some additional features. 


Otter.ai’s transcription is generally quite accurate, but you might run into some trouble if you’re using technical/specific vocabulary, or if the speaker’s accent is quite thick and the quality of the audio recording is low.

But even in those cases, I find Otter.ai useful because of the time stamps. If I do a 40-minute interview, I might remember afterwards there was an interesting quote I’d like to grab. Then I simply search for a keyword that I think the AI might’ve caught despite audio issues, and listen back to the quote rather than trust the transcription blindly. Basically, it creates a way for you to use CTRL+F/CMD+F on an audio file — which is awesome.

Transcribing for other languages than English

Unfortunately, Otter.ai and most other free solutions don’t support other languages than English. So what you’re left with is a pretty awkward ‘hack’ which I personally don’t care for, but hey, desperate times call for desperate measures.

Quartz recommended this trick a couple of years back, and it revolves around taking advantage of Google Doc’s built-in voice typing tool. The idea is to listen back to the interview on headphones, then repeat it out loud (as it can’t transcribe playbacks from speakers) and have the voice typing do the actual transcription. Sure you want to do this? Okay, here’s how it works:

Open up Google Docs on Chrome and select the ‘Voice typing’ option under the ‘Tools’ section. Then you’ll see the voice typing button appear, click it and start reciting the interview while you listen to it on your headphones.

Voice typing is easy to find, but make sure you have your microphone turned on.

Select your preferred language, then click the Voice Typing button and start narrating. Btw, I realize Icelandic was a tall order, still bummed it didn’t work.

Now there are numerous downsides to this. First of all, if it’s a 40-minute interview, it’ll take at least 40-minutes to transcribe. Then there’s the issue of time stamps and accounting for multiple speakers. The accuracy of the transcription also varies greatly depending on the language (doesn’t really work for Icelandic for example, my beautiful native language). Then finally, I just feel awkward as hell dictating an interview to my laptop. 

But, if this is truly your last resort, hopefully it can save you from the painful transcribing process.

