Natural Language Toolkit (NLTK)
Primeiramente vou explicar o que é o NLTK e como podemos instalá-lo no Linux.
Natural Language Toolkit (NLTK) é um conjunto de ferramentas open source escritas em Python e para Python, para a manipulação de linguagem natural.
Conta com uma boa documentação (http://nltk.sourceforge.net/index.php/Book) que auxilia o desenvolvimento, composto por leitores de corpus, tokenizers, stemmers, taggers, chunkers, parsers, wordnet, mais de 30 conjuntos de dados anotados amplamente usados de PLN (+300Mb).
Quando a manipulação com strings começa a ser tornar trabalhosa utilizando apenas o módulo String do Python, é a hora do NLTK entrar em cena.
INSTALAÇÃO
A instalação é bem simples, ter o Python instalado é um requisito.
Faça o download do código fonte em: http://prdownloads.sourceforge.net/nltk/nltk-0.9.2.tar.gz
Descompacte:
$ tar -zxvf nltk-0.9.2.tar.gz
Entre na pasta:
$ cd nltk-0.9.2
Utilize o instalador:
$ sudo python setup.py install
Isso feito, agora é necessário realizar um download maior (75MB) com os dados do NLTK: http://prdownloads.sourceforge.net/nltk/nltk-data-0.9.2.zip
Enquanto o download não termina, você pode criar a seguinte pasta:
$ sudo mkdir /usr/share/nltk
Após o término e descompactação dos arquivos, mova a pasta descompactada:
$ sudo mv data /usr/share/nltk
Altere a permissão da pasta para que os dados possam ser utilizados:
$ sudo chmod -R g+r /usr/share/nltk/data
——————————————————————–
Pronto, instalação completa no Linux!
——————————————————————-
Para utilizá-la, você deve importar o módulo no Python:
$ python
>>>import nltk
Existe um corpus em português que pode ser utilizado da seguinte forma:
>>>from nltk.corpus import floresta
Vamos coletar as palavras pertencentes a esse corpus:
>>>palavras = floresta.words()
Temos 211.852 palavras:
>>>len(palavras)
Por enquanto é só isso, pretendo em um próximo post apresentar alguma coisa interessante desse módulo.
Como ainda não o estudei muito bem, não tenho muita coisa. Mas como terei de usá-lo em meu Trabalho de Conclusão de Curso (Investigação e Implementação De Um Sistema Gerador de Expressões Regulares A Partir De Um Conjunto De Expressões Em Linguagem Natural) provavelmente terei alguma coisa para mostrar em breve e quem sabe também não falo sobre o meu TCC.
Referências:
http://nltk.sourceforge.net/
Não ha comentários
Leave a reply