terça-feira, 26 de novembro de 2013

Como o Google converteu tradução de idiomas em um problema matemático de espaço vetorial

arxiv.org/abs/1309.4168

O texto abaixo foi publicado no MIT Technology Review em inglês. Eu usei o tradutor do Google (sem edição adicional) para testar na prática o resultado dos esforços da Google descritos no texto. É interessante avaliar a qualidade da tradução, que achei bastante razoável a menos do título. Mas o conteúdo do texto, que me foi repassado pelo Mario Veiga, é ainda mais interessante. Vamos a ele...

"Como o Google convertido tradução de idiomas em um problema de espaço vetorial Matemática

Ciência da computação está mudando a natureza da tradução de palavras e frases de um idioma para outro. Qualquer pessoa que tenha tentado BabelFish ou Google Translate vai saber que eles fornecem serviços de tradução úteis , mas aqueles que estão longe de ser perfeito.

A idéia básica é comparar um corpus de palavras em uma língua com o mesmo corpus de palavras traduzidas para o outro. Palavras e frases que compartilham propriedades estatísticas semelhantes são consideradas equivalentes.

O problema, claro, é que as traduções iniciais dependem de dicionários que têm de ser compilado por especialistas humanos e isso leva tempo e esforço significativo.

Agora Tomas Mikolov e um casal de amigos do Google em Mountain View desenvolveram uma técnica que gera automaticamente dicionários e tabelas frase que convertem uma língua para outra .

A nova técnica não depende de versões do mesmo documento em diferentes idiomas. Em vez disso , ele utiliza técnicas de extracção de dados para modelar a estrutura de uma única língua e , em seguida, compara esta com a estrutura de uma outra língua .

"Este método faz pouco suposição sobre as línguas , então ele pode ser usado para ampliar e refinar dicionários e tabelas de conversão para todos os pares de idiomas ", dizem eles .

A nova abordagem é relativamente simples. Ele se baseia na noção de que cada língua deve descrever um conjunto semelhante de idéias, então as palavras que fazem isso também deve ser similar. Por exemplo, a maioria das linguagens terá palavras comuns para os animais , tais como gato, cão, vaca, e assim por diante. Estas palavras são provavelmente utilizados da mesma maneira em frases tais como " um gato é um animal que é menor do que um cão ".

O mesmo é verdade para números. A imagem acima mostra as representações vetoriais dos números 1-5 em Inglês e Espanhol e demonstra como eles são semelhantes .

Esta é uma pista importante . O novo truque é representar toda uma linguagem por meio da relação entre as suas palavras. O conjunto de todas as relações, o assim chamado " espaço de linguagem" , pode ser considerada como um conjunto de vectores que cada ponto de uma palavra para outra. E, em anos recentes , os lingüistas descobriram que é possível manusear estes vectores matematicamente . Por exemplo , a operação de 'rei' - 'homem' + resultados de "mulher" em um vetor que é semelhante a "rainha" .

Acontece que diferentes línguas compartilham muitas semelhanças neste espaço vetorial . Isso significa que o processo de conversão de uma língua para outra, é equivalente a encontrar a transformação que converte um espaço vectorial para o outro .

Isso transforma o problema da tradução de uma lingüística em uma de matemática. Assim, o problema para a equipa do Google é encontrar uma forma de mapear com precisão um espaço vectorial para o outro . Para isso, use um pequeno dicionário bilíngüe compilado por especialistas humanos , comparando mesmo corpus de palavras em duas línguas diferentes lhes dá uma transformação linear ready-made que faz o truque.

Tendo identificado este mapeamento , então é uma simples questão de aplicá-lo aos maiores espaços de linguagem. Mikolov e co dizem que ele funciona muito bem. " Apesar de sua simplicidade , o nosso método é surpreendentemente eficaz : podemos alcançar quase 90% de precisão @ 5 para a tradução de palavras entre Inglês e Espanhol ", dizem eles .

O método pode ser utilizado para estender e refinar dicionários existentes , e até mesmo para detectar erros nos mesmos. De fato, a equipe do Google fazer exatamente isso com um dicionário Inglês- Checa , encontrar inúmeros erros .

Finalmente, do ponto de equipa que, desde a técnica torna algumas hipóteses sobre as próprias línguas , ele pode ser utilizado em argots que são totalmente independentes. Assim, enquanto Espanhol e Inglês têm uma história indo-européia comum , Mikolov e co mostram que a nova técnica também funciona muito bem para os pares de línguas que são menos intimamente relacionados , tais como Inglês e vietnamita.

Esse é um passo útil para a frente para o futuro da comunicação multilingue. Mas a equipe diz que este é apenas o começo. "Claramente , ainda há muito a ser explorado ", concluem."

Referência: arxiv.org/abs/1309.4168: Exploiting Similarities among Languages for Machine Translation

Nenhum comentário:

Postar um comentário