Coletando Corpus
Como todos sabem, minha pesquisa é filiada e segue a Escola da Linguística de Corpus. Ou seja, pressupõe-se um garnde volume de dados, a ser analisados por computação e inteligência artificial, para que então eu disserta acerca e a partir dos ressultados obtidos. Assim, fui atras de baixar o corpus, sendo que o plano era baixar do Google Arts, já que minha pesquisa busca o discurso dentro da História da Arte. Fui baixar, mas jamais sozinho, pois não sei programar!
Com a ajuda de um colega (obrigado, André!), obtive uma ruim e uma resposta boa. A ruim é significativa para a pesquisa: o código não permite scraping no Google Arts. Paciência. Troca-se de tática, é assim mesmo. Já a segunda é muito boa: Com o GitHub, obtivemos um total de 4 corpora de imagens, oriundos de redes sociais e da google imagens, sendo que os pertencentes ao Google Imagens estão divididos em 3 idiomas. Note abaixo. É um total de 597.162 de enunciados imagéticos!
Images | Social | Arts & Culture | |
Brazil | 97 | 111.397 | 141 |
Brasil | 98 | ||
Brézil | 100 | ||
Brazilian | 49.765 |