+55 11 5908-8300
Fechar

All Tasks Traduções Técnicas na Multilingual Magazine

Voltar
All Tasks Traduções Técnicas na Multilingual Magazine

Confira o artigo de Thiana Donato publicado pela MultiLingual

O mercado de serviços de tradução foi beneficiado com uma série de inovações trazidas pela linguística computacional, ou processamento de linguagem natural (PLN), uma área multidisciplinar que abrange inteligência artificial, tecnologia da informação e linguística, utilizando processos informatizados para tratar a linguagem humana. A Inteligência Artificial é o campo de pesquisa dentro da ciência da computação que estuda como as máquinas podem “pensar”, simulando a capacidade humana para inteligência e solução de problemas.

O mercado de empresas de tradução foi beneficiado com uma série de inovações por meio da linguística computacional, ou processamento de linguagem natural (PLN), uma área multidisciplinar que abrange inteligência artificial, tecnologia da informação e linguística, utilizando processos informatizados para tratar a linguagem humana. A Inteligência Artificial é o campo de pesquisa dentro da ciência da computação que estuda como as máquinas podem “pensar”, simulando a capacidade humana para inteligência e solução de problemas.

Como resultado da integração dessas ciências, a pesquisa tem disponibilizado aplicações importantes para o trabalho do tradutor, tais como ferramentas de busca, verificadores ortográficos e reconhecimento de voz, além de ferramentas em tradução humana assistida por computador (CAT), incluindo memórias de tradução (TM), gerenciamento de terminologia, e tradução automática (MT). Esses projetos têm por objetivo desenvolver um mecanismo de busca para os termos mais comuns, por meio de segmentação, eliminando assim a repetição e resultando em uma tradução mais natural. O objetivo dos pesquisadores de inteligência é desenvolver ferramentas de CAT e MT que possam simular a habilidade humana de pensar e solucionar problemas. A linguística de corpus estuda a linguagem em uso, investigando-a por meio da observação de grandes quantidades de dados autênticos contidos no corpus, que é um conjunto representativo de textos em uma área específica, organizados eletronicamente para possibilitar pesquisas utilizando ferramentas de busca especializadas. A linguística de corpus considera a linguagem como um sistema probabilístico. Ou seja, há muitas possibilidades para uma mesma expressão na linguagem, mas nem todas são utilizadas com a mesma frequência.

A pesquisa nessa área avançou nos anos 80 com a ampla disseminação do uso dos computadores pessoais, o que gerou um aumento na disponibilidade e acessibilidade de corpora e das ferramentas de processamento, ajudando a fortalecer as pesquisas nesse campo e a reforçar o fato de que essa área de pesquisa está e sempre esteve intimamente relacionada à tecnologia. Desde então, a pesquisa relacionada ao tema contribuiu para a tradução de várias formas. A aplicação dos padrões mais comumente utilizados em uma linguagem resulta em uma tradução que flui mais naturalmente e é mais fiel ao idioma nativa. Além disso, a maior parte dos sistemas de MT baseia-se em um corpus composto por textos bilíngues (original e traduzido).

As ferramentas de informática utilizadas pela linguística de corpus fornecem um mecanismo que coleta, armazena e analisa dados linguísticos — o chamado corpus. Esses dados são utilizados como material de pesquisa, que pode ajudar a elaborar teorias sobre a funcionalidade da linguagem.

Alguns programas listam palavras de acordo com a frequência com que ocorrem no corpus. Outros são denominados concordanciadores e servem para realizar buscas de palavras específicas em um corpus, gerando uma lista abrangente de frases que mostra os contextos nos quais a palavras foi utilizada. O uso de etiquetagem também é comum para analisar automaticamente o corpora e produzir códigos ou etiquetas que contêm somente dados pertencentes a uma estrutura morfossintática e sintática específicas.

Essa área de pesquisa contribuiu para o aprimoramento do software de MT híbrida, por meio de suas teorias sobre variáveis linguísticas, influenciando diretamente no serviço de tradução, de forma que o texto final seja o mais próximo possível do texto original. Os sistemas de MT baseiam-se em um corpus composto por textos bilíngues (original e traduzido) e em um banco de dados com sistemas de regras e estatísticas. Dessa forma, as inovações tecnológicas podem agilizar o processo de tradução, resultando em uma MT de melhor qualidade, com o tradutor humano atuando como um tipo de validador dos dados da MT.

Essa é uma contribuição valiosa quando consideramos que o primeiro avanço tecnológico utilizado para apoiar o trabalho de tradução foi desenvolvimento da MT, criada por norte-americanos nos anos 50 para espionar os russos durante o período da Guerra Fria. Esses componentes de software foram capazes de analisar orações com base na gramática, gerando traduções muito artificiais, algumas vezes sem sentido, que precisavam ser corrigidas e validadas por um tradutor humano. Atualmente, o sistema de MT mais famoso no mundo é o do Google, o que prova que, pelo menos por enquanto, os resultados apresentados pela MT não são satisfatórios sem a intervenção humana.

Outra contribuição tecnológica foi o desenvolvimento das ferramentas de CAT, que resultaram em softwares como Trados, Déjà Vu e Wordfast. Essas ferramentas, além de considerar a gramática, utilizam uma TM que possibilita que os termos utilizados em um texto sejam padronizados e adicionados a um glossário, facilitando o controle da qualidade nas traduções. Essas ferramentas são projetadas para dar suporte ao trabalho do tradutor, por exemplo, armazenando segmentos traduzidos anteriormente na TM de forma que quando o mesmo segmento de texto aparecer novamente, o software traz a tradução utilizada anteriormente para aquela frase.

Cada avanço tecnológico levanta rumores de que os dias do tradutor profissional estão contados. Entretanto, os serviços de tradução humana  continuam a ser essenciais. A tecnologia não é um substituto para o trabalho humano, e sim, uma ferramenta que ajuda a agilizar certos tipos de serviços de tradução.

A terminologia é uma das áreas que podem ser significativamente influenciadas pela linguística de corpus, a qual tem desenvolvido vocabulários utilizando metodologia própria. São elaborados glossários a partir do corpus, criando um tipo de filtro, de forma que o vocabulário mostre somente termos contidos no corpus, compilados de acordo com critérios específicos. Como resultado, o glossário contém os termos utilizados mais comumente para uma área de especialização em particular. Outra característica dos glossários criados pela linguística de corpus é o fato deles serem ricos em exemplos autênticos extraídos do corpus e outras informações que podem facilitar o serviços de tradução. Consequentemente, o tipo de tradução que mais pode se beneficiar com a linguística de corpus é a tradução técnica, que tem como foco várias áreas de especialização a partir de um ponto de vista técnico ou científico. A tradução técnica é uma modalidade que envolve um alto grau de pesquisa terminológica e desenvolvimento de glossários para garantir o uso de uma terminologia padronizada no documento em questão, bem como para qualquer projeto futuro realizado sobre o mesmo tema.

Tanto o material de referência quanto o material de pesquisa que levaram ao desenvolvimento das ferramentas de informática podem agilizar o processo da tradução técnica e gerar ganhos em termos da qualidade, proporcionando ao tradutor não somente um melhor conhecimento da terminologia especializada do setor para o qual a tradução técnica  é voltada, mas também o suporte de um software multifuncional, como os programas que estão sendo lançados no mercado de serviços de tradução.

No Brasil, por exemplo, a pesquisa em linguística de corpus ainda está engatinhando, mas tem ganhado força. A pesquisa brasileira nesse campo é realizada por grupos de interesse, como o projeto COMET (Corpus Multilíngue para Ensino e Tradução), desenvolvido em conjunto com o departamento de literatura moderna da Faculdade de Filosofia, Literatura e Ciências Humanas da Universidade de São Paulo (USP). Seus membros são na maioria alunos da pós-graduação e voluntários.

Um exemplo dessa contribuição da linguística de corpus é o CorTrad, um projeto desenvolvido pela USP, Linguateca e NILC, que aplica uma metodologia proposta pela linguística de corpus com novas funcionalidades, como diferentes tipos de busca, para as traduções. O projeto também possibilita que diferentes versões das mesmas traduções sejam comparadas e que sejam consultados componentes estruturais específicos. O CorTrad está disponível no website do COMET. Uma de suas principais vantagens é seu eficiente mecanismo de busca, que refina a busca em três subcorpora diferentes, incluindo gênero, tipo de texto e outras características específicas. Até o momento, esse projeto produziu dois importantes materiais de referência nas áreas de culinária brasileira e recepção de convidados. O que torna esse projeto diferente é sua apresentação de um corpus paralelo que torna possível comparar o original com a tradução.

Outra contribuição é o CorTec, um corpus técnico português-inglês que possibilita comparações de terminologia. Ele se divide em 14 subcorpora segmentados em áreas especializadas. Esses estudos são recentes e ainda estão nas etapas iniciais, e ainda assim, é necessário que se reconheça sua relevância. O desenvolvimento da tecnologia da linguagem depende extremamente desses estudos, o que significa que o crescimento do mercado de tradução depende dos investimentos nessa área de pesquisa.

Alguns sistemas de TM já receberam novas funcionalidades resultantes da metodologia da linguística de corpus. Embora seja incorreto dizer que a MT estatística utiliza algum tipo de linguística de corpus, é verdade que esses métodos e técnicas podem ajudar a linguística computacional a desenvolver novos mecanismos para os sistemas de TM.

Atualmente, a linguística de corpus está sendo desenvolvida em vários centros de pesquisa linguística ao redor do mundo. Um dos maiores centros está localizado na Grã-Bretanha, com projetos sendo desenvolvidos em diversas universidades, nas cidades de Birmingham, Brighton, Lancaster, Liverpool, Londres, entre outras. A pesquisa nos instituições britânicas contribuiu para teorização de corpora e outros materiais de apoio em várias áreas. Também há centros dedicados a essa pesquisa nos países escandinavos. A linguística de corpus parece estar mais difundida na Europa do que em outras partes do mundo. Nos Estados Unidos, a linguística de corpus existe, mas é mais modesta. Os pesquisadores norte-americanos estão mais comprometidos com projetos envolvendo NLP, o qual, embora intimamente relacionado com as ciências da computação, e com várias características em comum com a linguística, é tratado separadamente.

Uma nova tendência no cenário mundial da linguística de corpus é o investimento por parte de empresas privadas, por meio de parcerias entre empresas e universidades. O mundo corporativo tem um grande interesse nos estudos nessa área de conhecimento para fins comerciais, tais como o processamento automatizado de textos, informatização de bancos de dados, e a criação de sistemas de voz e gerenciamento de dados inteligentes.