A transcrição de áudio automática não vale a pena. E veja: se valesse, por que a Mundo Escrito (e outras empresas idôneas) contaria com transcritores aos quais sempre deve pagar pelo serviço? No sistema de mercado em que vivemos, nenhuma empresa deixaria escapar essa oportunidade se, realmente, valesse a pena.
Muitas tentativas já foram feitas nesse sentido pela IBM, pela Google e por outras grandes empresas. Também nós desejamos muito que esse sonho de transcrever áudios automaticamente transforme-se em realidade.
Por que a transcrição de áudio automática não vale a pena?
A proposta da transcrição de áudio automática não vale a pena, ainda, porque o software precisa converter a voz humana (gravada ou ao vivo) em texto com qualidade. Do contrário, o tempo necessário para revisá-lo após a conversão acaba sendo superior ao que se gastaria digitando-o manualmente.
E mais! Os textos produzidos por esses softwares são muito perigosos porque a revisão pós-conversão deve ser muito mais cuidadosa, já que nunca convertem o áudio em palavras inexistentes. Ou seja, se a pronúncia não for bem feita, o software retornará a palavra ou frase que mais se aproximar daquilo que foi dito — como ocorre com os conversores de voz em texto dos smartphones. Imagine o volume de erros que pode advir de um áudio mais extenso…
É verdade que nas atividades informais esses softwares ajudam. Mas, se a finalidade da transcrição do seu áudio é gerar documentos protocolares, principalmente se o conteúdo tem terminologias específicas, não perca seu tempo. Transcreva-o manualmente e garanta que tudo saia sob controle. Do contrário, você correrá muitos riscos de prejudicar o seu documento.
As experiências com os softwares de transcrição automática
Como fornecedores do serviço de transcrição de áudio (e degravação), claro que fizemos muitas experiências até chegar a essa conclusão. E foi por isso que escrevemos este artigo. Sempre que possível, buscamos mais informações atualizadas, já que estamos na era da Inteligência Artificial.
Fizemos inclusive a experiência de passar os textos convertidos pelos softwares aos nossos revisores, mas, claro, também por questões financeiras isso não deu certo, já que o serviço de revisão de texto é mais caro do que o de transcrição de áudios.
A IBM foi a primeira a fazer conversão de voz em texto. Partindo do princípio de que a voz humana se difere de pessoa para pessoa, quando o ViaVoice era instalado no desktop, era necessário que o usuário fizesse o reconhecimento de voz. O usuário precisava ler, em voz alta, todos os textos que o software solicitava, até que o reconhecimento da voz fosse completado.
Não houve avanço, infelizmente
Nem deu para perceber que já se passaram 10 anos! Hoje a Google e outros fabricantes já fazem a conversão de voz em texto sem a necessidade do reconhecimento de voz. Mas, infelizmente, os recursos da conversão podem ser praticamente os mesmos. Muito pouco avanço.
Se 10 anos depois do ViaVoice a tecnologia de conversão continua a mesma, apesar dos esforços da poderosa Google e de outras empresas de grande porte, a esperança de que surja no mercado um software que realmente cumpra o papel de converter voz em texto com qualidade ainda é esparsa.
Sendo assim, se você não pode continuar esperando até que o software seja desenvolvido de fato, sugerimos que aprenda a transcrever manualmente ou contrate o serviço de quem já faz isso profissionalmente.
Com este post, esperamos ter contribuído para que você não tenha que experimentar os diversos recursos disponíveis de conversão automática para, no fim, como nós, constatar que a transcrição de áudio automática não vale a pena.
Bom dia, amigos do Mundo Escrito!
Para dizer o mínimo, lembro aqui as palavras de Anne-Marie Christin, professora emérita da Universidade Denis Diderot (Paris 7) e codiretora do Centre d’étude de l’écriture et de l’image:
“A fala (parole) poderia muito bem ser considerada ‘o tormento da escrita’.
A fala voa como um pássaro, crepita e bruxuleia como uma chama, é presença e instantaneidade, fulgurância; ela persuade e agita; ela convence ou suscita a contradição, o despertar, o diálogo.
Como poderia a escrita enclausurar o fogo volátil, efêmero e vivo da fala? Ela não intervém sempre com um atraso? Não descansa na ausência do orador? A escrita é um meio frio, seu poder de emoção e transformação parece fraco se comparado ao poder criativo da fala.”
Iluminados por essa percepção, podemos divisar o tamanho do problema que têm a enfrentar aqueles que lidam com o desafio tecnológico de converter o discurso oral em texto escrito.
Parabéns, mais uma vez, pela escolha do tema.
Abraço fraterno a todos!
Cláudio, sua visita ao blog da Mundo Escrito é sempre motivo de comemoração para nós, pois seus comentários muito abrilhantam os nossos artigos. Este em especial, com a citação da Anne-Marie Christin…!
Quanto a conversão do discurso oral em texto escrito, de fato, ainda é algo que não podemos prognosticar. Se o reconhecimento do próprio texto escrito (escaneamento OCR) já oferece problemas infindáveis, o que dizer da transcrição automática da voz humana!?
Um forte abraço, Cláudio!