Hora de farmar: Coletando o Corpus

Atualmente estou no processo de coleta do corpus. Essa parte não é uma das mais emocionantes na pesquisa, principalmente pelo fato de que a maior parte da coleta está sendo manual. Os textos dos jogos estão sendo coletados de várias fontes, como wikis, fan sites, fóruns, arquivos dos jogos e transcrições. A principal preocupação no momento é certificar que os textos estão corretos e criar marcações e legendas pra facilitar o processo de limpeza do corpus no futuro. 

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

pt_BRPT
Portal da Ciência Aberta