Coletando Corpus

Como todos sabem, minha pesquisa é filiada e segue a Escola da Linguística de Corpus. Ou seja, pressupõe-se um garnde volume de dados, a ser analisados por computação e inteligência artificial, para que então eu disserta acerca e a partir dos ressultados obtidos. Assim, fui atras de baixar o corpus, sendo que o plano era baixar do Google Arts, já que minha pesquisa busca o discurso dentro da História da Arte. Fui baixar, mas jamais sozinho, pois não sei programar!

Com a ajuda de um colega (obrigado, André!), obtive uma ruim e uma resposta boa. A ruim é significativa para a pesquisa: o código não permite scraping no Google Arts. Paciência. Troca-se de tática, é assim mesmo. Já a segunda é muito boa: Com o GitHub, obtivemos um total de 4 corpora de imagens, oriundos de redes sociais e da google imagens, sendo que os pertencentes ao Google Imagens estão divididos em 3 idiomas.  Note abaixo. É um total de 597.162 de enunciados imagéticos!

 

  Images Social Arts & Culture
Brazil 97 111.397 141
Brasil 98    
Brézil 100    
Brazilian   49.765  

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

pt_BRPT
Portal da Ciência Aberta