Ferramentas

Ferramentas computacionais em Linguística Aplicada

AntConc 3.5.8

O AntConc 3.5.8 é um conjunto de ferramentas para análise de textos e pode ser baixado gratuitamente do website de Laurence Anthony. Esse kit oferece  concordanciador, visualizador de arquivos, ferramenta de lista de palavras e um identificador de colocações. Além disso, outras ferramentas bastante úteis para análise de textos, como o etiquetador TagAnt , o gerador de corpora AntCorGen e o AntfileConverter podem ser baixadas do mesmo website.

Acesse

Centro de Pesquisa, Recursos e Informação em Linguagem (CEPRIL)

Fundado em 1983 por membros do Programa de Pós-Graduação em Lingüística Aplicada e Estudos da Linguagem (LAEL) da PUC-SP, o CEPRIL oferece acervo bibliográfico especializado em Linguística Aplicada, bancos de dados de linguagem autêntica em vários contextos e ferramentas computacionais para análise de dados.

Acesse

English-corpora.org

O English-Corpora.org é um conjunto de ferramentas online que, dentre outras funcionalidades, dispõe de um concordanciador automático para a identificação da frequência de ocorrência de palavras isoladas, padrões colocacionais e coligacionais ou mesmo a busca de palavras pertencentes a uma categoria (i.e, clothes). A ferramenta possibilita ainda a exploração de corpora como o Corpus of contemporary America English (Coca), o British National corpus (BNC), o corpus of Historical American English (COHA), The Hansard corpus, o TIME Magazine corpus e o mais recente Coronavirus corpus, que objetiva registrar a linguagem utilizada pelos falantes quando se referem a pandemia do ano de 2020.

Acesse

Coleta corpus GELC

O arquivo coletacorpusweb.sh foi criado por membros do Grupo de Estudos em Linguística de Corpus (GELC) para facilitar a coleta e criação de corpora compostos por textos baixados de websites. Além de baixar urls (sites inteiros) html (páginas) e pdfs, a ferramenta possibilita a conversão de arquivos html em txt, pdf em txt e a codificação de arquivos txt.

download do script em Shelldownload do tutorial do Corpus Gelc

Kaleidographic

Kaleidographic é uma ferramenta de visualização dinâmica e interativa que pode mostrar relações entre várias variáveis ​​em seu conjunto de dados. Construa seus próprios Kaleidographics gratuitos clicando no botão abaixo. 

Visite

Script: Qualidade da Fala Alaríngea (Praat)

Este material é dividido em duas partes: I. MANUAL (versões português e inglês) e II. Sequência de comandos (códigos) do software em versão PDF ( a extensão do arquivo é .praat). O software livre, formulado como um Script por Albert Rilliard (Université Paris Saclay, CNRS, LISN) em colaboração com Zuleica Camargo (PUC-SP) & Nathalia dos Reis (ICESP) é distribuído sob a licença CeCILL FREE SOFTWARE LICENSE
AGREEMENT versão 2.1 ou superior (compatível com GNU GPL).

RILLIARD, Albert Olivier Blaise; REIS, Nathalia; CAMARGO, Zuleica. Script qualidade de voz alaringea. praat . LISN /PUC-SP/ ICESP.  Copyright. Version 0.3/2022 (released as a free software).

Fonte de Financiamento: Plano de Incentivo à Pesquisa- PUC-SP; PIPEq - Auxílio à Pesquisa. 

Contato:

 

Baixe o script

Corpus hate Speech

Conheça esse corpus no Github.

Acesse aqui
pt_BRPT
Portal da Ciência Aberta