Coleta seletiva

Que rufem os tambores, ladies and gentlemen!!!! Vou contar para vocês o processo, a metodologia para a coleta do meu corpus. Primeiramente, decidimos coletar tweets que tivessem a palavra “sustentabilidade” e não apenas os que tivessem #sustentabilidade para deixar o resultado mais amplo. O corte temporal, como já disse por aqui, foi de 2018 a 2022. Vou contar para vocês, de forma extremamente simplificada e resumida – sem spoilers porque quero que vocês leiam depois a minha dissertação 😉 – o processo de coleta e análise fatorial do meu corpus. Fazendo uma analogia, essa é a hora que jogamos a rede para pescar as informações. Essa coleta é feita via ferramenta snscrape e resultou no total de 93.689 tweets, com 2,8 milhões palavras. O corpus é processado e etiquetado, de forma automática, pelo TreeTagger (para português). Aí é feita também uma checagem manual, separando o que realmente é peixe dentro do que foi colhido pela “rede” que falamos. Deixamos os substantivos, verbos, adjetivos. As hashtags também entraram, porque, sob nossa ótica, têm um grande valor discursivo, como explicarei na minha dissertação. A etiquetagem das hashtags foi realizada por um script desenvolvido por Berber Sardinha. Os lemas contados e organizados em planilhas. Por critério de frequência, foram selecionadas 500 varáveis lexicais para a análise fatorial. Próximo passo eu conto no próximo post. 😉

Leave a Reply

Your email address will not be published. Required fields are marked *

en_USEN
Portal da Ciência Aberta