Arquivo da categoria ‘Software Livre’

Natural Language Toolkit (NLTK)

Primeiramente vou explicar o que é o NLTK e como podemos instalá-lo no Linux.
Natural Language Toolkit (NLTK) é um conjunto de ferramentas open source escritas em Python e para Python, para a manipulação de linguagem natural.

Conta com uma boa documentação (http://nltk.sourceforge.net/index.php/Book) que auxilia o desenvolvimento, composto por leitores de corpus, tokenizers, stemmers, taggers, chunkers, parsers, wordnet, mais de 30 conjuntos de dados anotados amplamente usados de PLN (+300Mb).

Quando a manipulação com strings começa a ser tornar trabalhosa utilizando apenas o módulo String do Python, é a hora do NLTK entrar em cena.

INSTALAÇÃO

A instalação é bem simples, ter o Python instalado é um requisito.

Faça o download do código fonte em: http://prdownloads.sourceforge.net/nltk/nltk-0.9.2.tar.gz

Descompacte:
$ tar -zxvf nltk-0.9.2.tar.gz

Entre na pasta:
$ cd nltk-0.9.2

Utilize o instalador:
$ sudo python setup.py install

Isso feito, agora é necessário realizar um download maior (75MB) com os dados do NLTK: http://prdownloads.sourceforge.net/nltk/nltk-data-0.9.2.zip

Enquanto o download não termina, você pode criar a seguinte pasta:
$ sudo mkdir /usr/share/nltk

Após o término e descompactação dos arquivos, mova a pasta descompactada:
$ sudo mv data /usr/share/nltk

Altere a permissão da pasta para que os dados possam ser utilizados:
$ sudo chmod -R g+r /usr/share/nltk/data

——————————————————————–

Pronto, instalação completa no Linux!

——————————————————————-

Para utilizá-la, você deve importar o módulo no Python:
$ python
>>>import nltk

Existe um corpus em português que pode ser utilizado da seguinte forma:
>>>from nltk.corpus import floresta

Vamos coletar as palavras pertencentes a esse corpus:
>>>palavras = floresta.words()

Temos 211.852 palavras:
>>>len(palavras)

Por enquanto é só isso, pretendo em um próximo post apresentar alguma coisa interessante desse módulo.
Como ainda não o estudei muito bem, não tenho muita coisa. Mas como terei de usá-lo em meu Trabalho de Conclusão de Curso (Investigação e Implementação De Um Sistema Gerador de Expressões Regulares A Partir De Um Conjunto De Expressões Em Linguagem Natural) provavelmente terei alguma coisa para mostrar em breve e quem sabe também não falo sobre o meu TCC.

Referências:
http://nltk.sourceforge.net/

FLISOL – edição Maringá

Hoje foi realizado o FLISOL (Festival Latino americano de Instalação de Software Livre) 2008 Maringá, com cerca de 50 pessoas presentes.
Além de instalação e distribuição gratuita de CD’s, principalmente do Ubuntu 8.04 (lançado apenas 2 dias atrás), ocorreram palestras sobre Python do meu amigo Rodrigo Hübner, que mostrou diversas características da linguagem com exemplos práticos e creio que incentivou algumas pessoas a pelo menos conhecê-la melhor.

O André Noel realizou duas palestras, sobre a filosofia software livre e apresentou as novas funcionalidades do novo Ubuntu.

Outra palestra do dia foi do Eduardo Pezutti sobre o sistema gerenciador de conteúdo (CMS): Drupal. Voltado para a linguagem PHP.

Por último, o Lucas Veloso apresentou diversas alternativas livres para a administração de ambientes heterogêneos. Ferramentas para verificação de integridade/recuperação de HD, memória, cópia de sistemas operacionais em ISO (bem legal o System Imager).

Saldo positivo p/ evento e p/ SL!