
|
Este site é melhor visualizado em Internet Explorer versão 7 ou superior com resolução de 1280x800 pixels |
|
Bem vindo ao site InfoWebNews, sua revista semanal online sobre tecnologia, ciência, ceticismo e comportamento. Assine grátis o boletim semanal IWN. |


|
Para pessoas com visão de futuro |
|
|
|
Diálogo com máquinas Programas de reconhecimento de voz melhoram bastante
Nos últimos anos a presença dos softwares de reconhecimento de voz aumentou imperceptivelmente em nossas vidas. Estão do outro lado da linha das centrais de atendimento ao consumidor e dos sistemas de reserva de linhas aéreas. Estão integrados ao Microsoft Windows. São um método alternativo de inserção de texto em telefones touchscreen como iPhone e Android. Mas vamos admitir: a maioria das pessoas que já utilizou esse software, desejou nunca ter feito isso. O reconhecimento de voz geralmente é o plano B: uma alternativa menos terrível à digitação ou à conversa humana em si. As corporações utilizam o reconhecimento de voz por ser mais barato que contratar pessoas reais. Muitas daqueles que ditam em seus computadores fazem isso por necessidade, talvez por conta de alguma deficiência. O reconhecimento de voz está surgindo nos telefones de touchscreen, pois a digitação em um teclado virtual é lenta e difícil. Então o que é preciso para que o reconhecimento de voz seja mais que uma alternativa? Quanto próximos estamos do ideal Star trek onde é possível conversar com computadores e a mensagem ser claramente compreendida? Bem, estamos chegando lá. Acontece que, após uma década de compras, fusões e escândalos de peculato, restou, ao menos nos Estados Unidos, apenas uma empresa de reconhecimento de voz: a Nuance Communications. A empresa vende o único software comercial de ditado para Windows, Macintosh e iPhone. Sua tecnologia guia os sistemas de comando de voz em carros da Audi, BMW, Ford e Mercedes e telefones celulares da Motorola, Nokia, Samsung, Verizon e T-Mobile. E movimenta brinquedos ativados por voz, unidades de GPS e caixas eletrônicos, além de responder telefones da AT&T, Bank of America, CVS, entre outros. Todo ano a Nuance lança uma nova versão de seus programas de ditado, como Dragon NaturallySpeaking, mas geralmente não adiciona muitas características novas. Em vez disso, a empresa dedica a maior parte de seus recursos a um único objetivo: melhorar a precisão. No início, era preciso treinar os programas através da leitura de um roteiro de 45 minutos com seu microfone para que o programa pudesse aprender sua voz. Mas, conforme a tecnologia foi aperfeiçoada, essa sessão reduziu-se a 20 minutos, depois para 10, 5 – e agora não é mais necessário treinar o software. Apenas inicia-se o ditado, e o resultado (pelo meu teste) é de 99.9% de precisão. Isso quer dizer ainda uma palavra errada em algumas páginas. Mas é impressionante. Engenheiros especialistas utilizam todos os tipos de truques para aumentar essa precisão. Os primeiros programas de ditado exigiam uma pausa após cada palavra, pois o software não conseguia distinguir “their” de “there” e “they´re” (deles; ali; eles estão/são). Mas, com o tempo, os processadores de PC, cada vez mais poderosos, tornaram possível a análise do discurso contínuo. Agora, falamos frases longas para que o software tenha mais contexto para analisar a precisão. Outro truque: ano passado a Nuance ofereceu um aplicativo gratuito de ditado para iPhone, chamado Dragon Dictation. Tudo o que é dito é transmitido para os servidores da empresa, onde é analisado, convertido em texto e enviado de volta a sua tela em questão de segundos. O que ninguém sabia, porém, é que a empresa armazena todos esses milhares de amostras de fala, criando um imenso depósito de diferentes vozes, idades, infl exões e sotaques com os quais são testados diferentes algoritmos de reconhecimento. Então, sim, a tecnologia está melhorando. Mas os leitores frequentemente me perguntam: “Se o software de ditado é tão bom, posso utilizá-lo para transcrever conversas telefônicas e entrevistas?”. A resposta ainda é “não”. O software não é tão bom, a menos que você esteja utilizando um microfone, sem barulho ao fundo, preferencialmente sem sotaque. Ainda é preciso falar toda a pontuação (“vírgula”), como essa (“ponto”). E Deus sabe que se nós humanos ainda temos difi culdade de nos entendermos, seria muito pedir a um computador fazê-lo com clareza absoluta. Não me surpreende que os aplicativos de ditado de hoje ainda cometam erros como “mode import” no lugar de “modem port”, (modo de importação / porta de modem), “move eclipse” no lugar de “movie clips” (mover eclipse / clipe de vídeos), entre outros. Então, o teclado ainda não será banido de nossas vidas. Ainda estamos a décadas de distância do estilo Star Trek de conversação. Certamente, uma precisão de 99,9% é excelente, mas até que se alcancem os 100%, a tecnologia de reconhecimento de voz ainda é o plano B. |

