Ferramentas

Ferramentas computacionais em Linguística Aplicada

AntConc 3.5.8

O AntConc 3.5.8 é um conjunto de ferramentas para análise de textos e pode ser baixado gratuitamente do website de Laurence Anthony. Esse kit oferece  concordanciador, visualizador de arquivos, ferramenta de lista de palavras e um identificador de colocações. Além disso, outras ferramentas bastante úteis para análise de textos, como o etiquetador TagAnt , o gerador de corpora AntCorGen e o AntfileConverter podem ser baixadas do mesmo website.

Acesse

English-corpora.org

O English-Corpora.org é um conjunto de ferramentas online que, dentre outras funcionalidades, dispõe de um concordanciador automático para a identificação da frequência de ocorrência de palavras isoladas, padrões colocacionais e coligacionais ou mesmo a busca de palavras pertencentes a uma categoria (i.e, clothes). A ferramenta possibilita ainda a exploração de corpora como o Corpus of contemporary America English (Coca), o British National corpus (BNC), o corpus of Historical American English (COHA), The Hansard corpus, o TIME Magazine corpus e o mais recente Coronavirus corpus, que objetiva registrar a linguagem utilizada pelos falantes quando se referem a pandemia do ano de 2020.

Acesse

Centro de Pesquisa, Recursos e Informação em Linguagem (CEPRIL)

Fundado em 1983 por membros do Programa de Pós-Graduação em Lingüística Aplicada e Estudos da Linguagem (LAEL) da PUC-SP, o CEPRIL oferece acervo bibliográfico especializado em Linguística Aplicada, bancos de dados de linguagem autêntica em vários contextos e ferramentas computacionais para análise de dados.

Acesse

Coleta corpus GELC

O arquivo coletacorpusweb.sh foi criado por membros do Grupo de Estudos em Linguística de Corpus (GELC) para facilitar a coleta e criação de corpora compostos por textos baixados de websites. Além de baixar urls (sites inteiros) html (páginas) e pdfs, a ferramenta possibilita a conversão de arquivos html em txt, pdf em txt e a codificação de arquivos txt.

download do script em Shelldownload do tutorial do Corpus Gelc

Kaleidographic

Kaleidographic é uma ferramenta de visualização dinâmica e interativa que pode mostrar relações entre várias variáveis ​​em seu conjunto de dados. Construa seus próprios Kaleidographics gratuitos clicando no botão abaixo. 

Visite

Corpus hate Speech

Conheça esse corpus no Github.

Acesse aqui
Portal da Ciência Aberta