O meu trabalho de mestrado é sobre a aplicação da ciência da computação na análise semântica de Linguagens Naturais. Linguagens Naturais são as linguagens que o Homem criou para a comunicação com os seus pares — muito diferentes das linguagens de programação usadas para instruir computadores, da matemática e da lógica. Hoje em dia, com a Internet e o mar de informações a que todos têm acesso, o processamento de Linguagem Natural se tornou um problema importante e muito estudado. Sistemas de busca como o Google tentam abordá-lo por alguns aspectos, corretores ortográficos como o do Microsoft Word por outros, mas ainda não há nenhum sistema computacional que pareça capaz de enfrentar o problema como um todo. Esse trabalho que eu fiz é uma tentativa modesta nesse sentido.
O trabalho foi desenvolvido em torno da Teoria da Predição de Solomonoff, um modelo de aprendizado extremamente promissor, usando como auxiliar a LSA (Análise da Semântica Latente), um método matemático para estabelecimento de correlações entre trechos de texto. Foram implementados dois sistemas: um protótipo restrito do Preditor de Solomonoff e um buscador utilizando LSA. Foram feitas grandes baterias de testes utilizando esses programas, excessivamente grandes para apresentá-las inteiras na dissertação. Felizmente o custo para manter tudo isso online é baixo, de maneira que quase tudo pode ser visto neste site:
- A dissertação em si, Um estudo sobre a Teoria da Predição aplicada à análise semântica de Linguagens Naturais.
- A implementação do Preditor de Solomonoff restrito a Linguagens Regulares — o pacote inclui os fontes não modificados da biblioteca SVDLIBC, cuja licença não está explicitada.
- O buscador baseado em LSA (Análise da Semântica Latente) — o arquivo inclui os fontes não modificados da biblioteca libstemmer, que está sob a licença BSD.
- Alguns dos gráficos gerados em testes com o buscador LSA.
A licença de todos os programas feitos neste trabalho é a boa e já velha GPL. Isso quer dizer que você pode pegar, usar e alterar, mas não vendê-los nem incluí-los em programas comerciais. Espero que ajudem nos trabalhos de outros estudantes de computação. Estou sempre aberto a contribuições no iuri@chaer.org.