Coletando Corpus

June 1, 2022

Como todos sabem, minha pesquisa é filiada e segue a Escola da Linguística de Corpus. Ou seja, pressupõe-se um garnde volume de dados, a ser analisados por computação e inteligência artificial, para que então eu disserta acerca e a partir dos ressultados obtidos. Assim, fui atras de baixar o corpus, sendo que o plano era baixar do Google Arts, já que minha pesquisa busca o discurso dentro da História da Arte. Fui baixar, mas jamais sozinho, pois não sei programar!

Com a ajuda de um colega (obrigado, André!), obtive uma ruim e uma resposta boa. A ruim é significativa para a pesquisa: o código não permite scraping no Google Arts. Paciência. Troca-se de tática, é assim mesmo. Já a segunda é muito boa: Com o GitHub, obtivemos um total de 4 corpora de imagens, oriundos de redes sociais e da google imagens, sendo que os pertencentes ao Google Imagens estão divididos em 3 idiomas. Note abaixo. É um total de 597.162 de enunciados imagéticos!

	Images	Social	Arts & Culture
Brazil	97	111.397	141
Brasil	98
Brézil	100
Brazilian		49.765

Luiz Zeferino

Coletando Corpus

Leave a Reply Cancel reply