{"id":1598,"date":"2023-09-23T18:06:56","date_gmt":"2023-09-23T18:06:56","guid":{"rendered":"https:\/\/cienciaaberta.org\/?page_id=1598"},"modified":"2024-04-30T15:48:31","modified_gmt":"2024-04-30T15:48:31","slug":"outros-dados-linguisticos","status":"publish","type":"page","link":"https:\/\/cienciaaberta.org\/en\/dados-abertos\/outros-dados-linguisticos\/","title":{"rendered":"Outros Projetos"},"content":{"rendered":"<p>Dataset: <strong>Ukraine tweets<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/dariusalexandru\/russian-propaganda-tweets-vs-western-tweets-war\">https:\/\/www.kaggle.com\/datasets\/dariusalexandru\/russian-propaganda-tweets-vs-western-tweets-war<\/a><br>Descri\u00e7\u00e3o: Este reposit\u00f3rio cont\u00e9m tweets sobre a guerra na Ucr\u00e2nia coletados de ambos os lados. O dataset cont\u00e9m contas russas e de fontes ocidentais desde o in\u00edcio da guerra na Ucr\u00e2nia at\u00e9 9 de maio de 2022.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>CHILDES English-L2 Paradis Corpus<\/strong><br>Link: <a href=\"https:\/\/childes.talkbank.org\/access\/Biling\/Paradis.html\">https:\/\/childes.talkbank.org\/access\/Biling\/Paradis.html<\/a><br>Descri\u00e7\u00e3o: O corpus Paradis consiste em amostras de linguagem naturalista de 25 crian\u00e7as aprendendo ingl\u00eas como segunda l\u00edngua (aprendizes de l\u00edngua inglesa ou aprendizes de ingl\u00eas como l\u00edngua adicional). A transcri\u00e7\u00e3o \u00e9 apenas em ortografia inglesa; a transcri\u00e7\u00e3o fon\u00e9tica n\u00e3o foi inclu\u00edda nesta pesquisa. Quaisquer nomes reais de pessoas ou lugares nas transcri\u00e7\u00f5es foram substitu\u00eddos por pseud\u00f4nimos. Os participantes s\u00e3o identificados com c\u00f3digos de quatro letras.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Star Wars Movie Scripts<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/xvivancos\/star-wars-movie-scripts\"> https:\/\/www.kaggle.com\/datasets\/xvivancos\/star-wars-movie-scripts<\/a><br>Descri\u00e7\u00e3o: Star Wars \u00e9 uma franquia de filmes popular que se passa em uma gal\u00e1xia muito, muito distante. Esta \u00e9 uma cole\u00e7\u00e3o de di\u00e1logos de roteiro entre personagens para os tr\u00eas primeiros filmes (epis\u00f3dios 4-6). Estes dados devem servir como uma forma divertida de implementar minera\u00e7\u00e3o de texto e lingu\u00edstica.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>English-French Translation Dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/dhruvildave\/en-fr-translation-dataset\">https:\/\/www.kaggle.com\/datasets\/dhruvildave\/en-fr-translation-dataset<\/a><br>Descri\u00e7\u00e3o: Textos paralelos em franc\u00eas\/ingl\u00eas para treinamento de modelos de tradu\u00e7\u00e3o. Mais de 22,5 milh\u00f5es de frases em franc\u00eas e ingl\u00eas coletados de milh\u00f5es de p\u00e1ginas da web. Este \u00e9 o conjunto de dados principal da Oficina de Tradu\u00e7\u00e3o Autom\u00e1tica Estat\u00edstica (WML) de 2015, que pode ser usado para Tradu\u00e7\u00e3o Autom\u00e1tica e Modelos de Linguagem.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Emotion Dataset for Emotion Recognition Tasks<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/parulpandey\/emotion-dataset\">https:\/\/www.kaggle.com\/datasets\/parulpandey\/emotion-dataset<\/a><br>Descri\u00e7\u00e3o: Um conjunto de dados de mensagens em ingl\u00eas do Twitter com seis emo\u00e7\u00f5es b\u00e1sicas: raiva, medo, alegria, amor, tristeza e surpresa. Os autores constru\u00edram um conjunto de hashtags para coletar um conjunto separado de tweets em ingl\u00eas da API do Twitter pertencentes a oito emo\u00e7\u00f5es b\u00e1sicas, incluindo raiva, antecipa\u00e7\u00e3o, repulsa, medo, alegria, tristeza, surpresa e confian\u00e7a.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>WALS dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/averkij\/wals-dataset\">https:\/\/www.kaggle.com\/datasets\/averkij\/wals-dataset<\/a><br>Descri\u00e7\u00e3o: O World Atlas of Language Structures (WALS) \u00e9 uma grande base de dados de propriedades estruturais (fonol\u00f3gicas, gramaticais, lexicais) das l\u00ednguas coletadas a partir de materiais descritivos (como gram\u00e1ticas de refer\u00eancia).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>CNN-DailyMail News Text Summarization<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/gowrishankarp\/newspaper-text-summarization-cnn-dailymail\">https:\/\/www.kaggle.com\/datasets\/gowrishankarp\/newspaper-text-summarization-cnn-dailymail<\/a><br>Descri\u00e7\u00e3o: Trata-se de um conjunto de dados em ingl\u00eas que cont\u00e9m um pouco mais de 300.000 artigos de not\u00edcias \u00fanicos escritos por jornalistas da CNN e do Daily Mail.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>News Category Dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rmisra\/news-category-dataset\">https:\/\/www.kaggle.com\/datasets\/rmisra\/news-category-dataset<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m cerca de 210 mil manchetes de not\u00edcias de 2012 a 2022 do HuffPost. Este \u00e9 um dos maiores conjuntos de dados de not\u00edcias e pode servir como refer\u00eancia para uma variedade de tarefas lingu\u00edsticas computacionais. O HuffPost deixou de manter um extenso arquivo de artigos de not\u00edcias em algum momento ap\u00f3s a coleta inicial deste conjunto de dados em 2018, portanto, n\u00e3o \u00e9 poss\u00edvel coletar um conjunto de dados semelhante nos dias atuais. Devido a mudan\u00e7as no site, existem cerca de 200 mil manchetes entre 2012 e maio de 2018 e 10 mil manchetes entre maio de 2018 e 2022.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>The Enron Email Dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/wcukierski\/enron-email-dataset\">https:\/\/www.kaggle.com\/datasets\/wcukierski\/enron-email-dataset<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados de e-mails da Enron cont\u00e9m aproximadamente 500.000 e-mails gerados por funcion\u00e1rios da Corpora\u00e7\u00e3o Enron. Foi obtido pela Comiss\u00e3o Federal Reguladora de Energia durante sua investiga\u00e7\u00e3o sobre o colapso da Enron.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Emoticon Dictionary<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/ahmedshahriarsakib\/emoticon-dictionary\">https:\/\/www.kaggle.com\/datasets\/ahmedshahriarsakib\/emoticon-dictionary<\/a><br>Descri\u00e7\u00e3o: Dicion\u00e1rio de emoticons frequentemente usados com sua representa\u00e7\u00e3o textual.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:CoLA: <strong>The Corpus of Linguistic Acceptability<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/krazy47\/cola-the-corpus-of-linguistic-acceptability\">https:\/\/www.kaggle.com\/datasets\/krazy47\/cola-the-corpus-of-linguistic-acceptability<\/a><br>Descri\u00e7\u00e3o: O Corpus de Aceitabilidade Lingu\u00edstica (CoLA) consiste em 10657 frases de 23 publica\u00e7\u00f5es lingu\u00edsticas, cuidadosamente anotadas quanto \u00e0 aceitabilidade (gramaticalidade) por seus autores originais.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>English Word Frequency<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/english-word-frequency\">https:\/\/www.kaggle.com\/datasets\/rtatman\/english-word-frequency<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m a contagem das 333.333 palavras \u00fanicas mais comumente utilizadas na web em ingl\u00eas, derivadas do Corpus de Trilh\u00f5es de Palavras da Web do Google.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> CNN-DailyMail News Text Summarization<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/gowrishankarp\/newspaper-text-summarization-cnn-dailymail\">https:\/\/www.kaggle.com\/datasets\/gowrishankarp\/newspaper-text-summarization-cnn-dailymail<\/a><br>Descri\u00e7\u00e3o: \u00c9 um conjunto de dados em ingl\u00eas que cont\u00e9m mais de 300 mil artigos de not\u00edcias \u00fanicos escritos por jornalistas da CNN e do Daily Mail.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Gender Recognition by Voice<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/primaryobjects\/voicegender\">https:\/\/www.kaggle.com\/datasets\/primaryobjects\/voicegender<\/a><br>Descri\u00e7\u00e3o: Este banco de dados foi criado para identificar uma voz como masculina ou feminina, com base em propriedades ac\u00fasticas da voz e da fala. O conjunto de dados consiste em 3.168 amostras de voz gravadas, coletadas de falantes masculinos e femininos. As amostras de voz s\u00e3o pr\u00e9-processadas por an\u00e1lise ac\u00fastica no R usando os pacotes seewave e tuneR, com uma faixa de frequ\u00eancia analisada de 0 Hz a 280 Hz (faixa vocal humana).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Punkt Sentence Tokenizer Models<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/nltkdata\/punkt\">https:\/\/www.kaggle.com\/datasets\/nltkdata\/punkt<\/a><br>Descri\u00e7\u00e3o: O arquivo punkt.zip cont\u00e9m modelos pr\u00e9-treinados do tokenizador de senten\u00e7as Punkt (Kiss and Strunk, 2006) que detectam os limites das senten\u00e7as. Esses modelos s\u00e3o utilizados pela fun\u00e7\u00e3o nltk.sent_tokenize da biblioteca python Natural Language Tool Kit (NLTK) para dividir uma string em uma lista de senten\u00e7as.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Fraudulent E-mail Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/fraudulent-email-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/fraudulent-email-corpus<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados \u00e9 uma cole\u00e7\u00e3o de mais de 2.500 &#8220;Cartas de Fraude Nigeriana&#8221;, datadas de 1998 a 2007.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>SMS Spam Collection Dataset<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/uciml\/sms-spam-collection-dataset\"> https:\/\/www.kaggle.com\/datasets\/uciml\/sms-spam-collection-dataset<\/a><br>Descri\u00e7\u00e3o: Este dataset \u00e9 um conjunto de mensagens SMS coletadas para pesquisa de spam de SMS. Cont\u00e9m um conjunto de mensagens SMS em ingl\u00eas com 5.574 mensagens, anotadas como sendo leg\u00edtimas (ham) ou spam.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>DARPA TIMIT Acoustic-Phonetic Continuous Speech<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/mfekadu\/darpa-timit-acousticphonetic-continuous-speech\">https:\/\/www.kaggle.com\/datasets\/mfekadu\/darpa-timit-acousticphonetic-continuous-speech<\/a><br>Descri\u00e7\u00e3o: O corpus TIMIT de fala lida foi projetado para fornecer dados de fala para a aquisi\u00e7\u00e3o de conhecimento ac\u00fastico-fon\u00e9tico e para o desenvolvimento e avalia\u00e7\u00e3o de sistemas de reconhecimento autom\u00e1tico de fala.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><strong>Dataset: Speech Accent Archive<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/speech-accent-archive\">https:\/\/www.kaggle.com\/datasets\/rtatman\/speech-accent-archive<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m 2140 amostras de fala em Ingl\u00eas, cada uma proveniente de um falante diferente lendo o mesmo trecho de leitura. Os falantes v\u00eam de 177 pa\u00edses e t\u00eam 214 idiomas nativos diferentes.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Online Job Postings<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/madhab\/jobposts\">https:\/\/www.kaggle.com\/datasets\/madhab\/jobposts<\/a><br>Descri\u00e7\u00e3o:O conjunto de dados consiste em 19.000 an\u00fancios de emprego que foram publicados atrav\u00e9s do portal arm\u00eanio de recursos humanos CareerCenter. <\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Question-Answer Jokes<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/jiriroz\/qa-jokes\">https:\/\/www.kaggle.com\/datasets\/jiriroz\/qa-jokes<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m 38.269 piadas no formato pergunta-resposta, obtidas do subreddit r\/Jokes. O conjunto de dados cont\u00e9m um arquivo CSV, onde cada linha cont\u00e9m uma pergunta (&#8220;Por que o frango atravessou a rua&#8221;), a resposta correspondente (&#8220;Para chegar ao outro lado&#8221;) e um ID \u00fanico.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Movie Dialog Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/Cornell-University\/movie-dialog-corpus\">https:\/\/www.kaggle.com\/datasets\/Cornell-University\/movie-dialog-corpus<\/a><br>Descri\u00e7\u00e3o: Este corpus cont\u00e9m uma cole\u00e7\u00e3o rica em metadados de conversas fict\u00edcias extra\u00eddas de scripts de filmes totalizando 304.713 enunciados e incluindo os metadados: g\u00eaneros, ano de lan\u00e7amento, classifica\u00e7\u00e3o do IMDB e n\u00famero de votos do IMDB.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Short Jokes<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/abhinavmoudgil95\/short-jokes\">https:\/\/www.kaggle.com\/datasets\/abhinavmoudgil95\/short-jokes<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados em formato de arquivo CSV cont\u00e9m 231.657 piadas. O comprimento das piadas varia de 10 a 200 caracteres. Cada linha no arquivo cont\u00e9m um ID \u00fanico e uma piada.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Democrat Vs. Republican Tweets<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/kapastor\/democratvsrepublicantweets\">https:\/\/www.kaggle.com\/datasets\/kapastor\/democratvsrepublicantweets<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados cont\u00e9m dois arquivos, ambos em formato .csv. O primeiro \u00e9 uma lista do partido pol\u00edtico e os identificadores dos representantes, e o segundo s\u00e3o os 200 tweets mais recentes at\u00e9 maio de 2018 desses usu\u00e1rios do Twitter.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Amazon reviews: Kindle Store Category<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/bharadwaj6\/kindle-reviews\">https:\/\/www.kaggle.com\/datasets\/bharadwaj6\/kindle-reviews<\/a><br>Descri\u00e7\u00e3o: Conjunto de dados de avalia\u00e7\u00f5es de produtos da categoria Amazon Kindle Store de maio de 1996 a julho de 2014. Cont\u00e9m um total de 982.619 entradas. Cada avaliador tem pelo menos 5 avalia\u00e7\u00f5es e cada produto tem pelo menos 5 avalia\u00e7\u00f5es neste conjunto de dados.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: Irish Times &#8211;<strong> Waxy-Wany News<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/therohk\/ireland-historical-news\">https:\/\/www.kaggle.com\/datasets\/therohk\/ireland-historical-news<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados de not\u00edcias \u00e9 uma composi\u00e7\u00e3o de 1,61 milh\u00e3o de manchetes publicadas pelo Irish Times, que cobrem um quarto de s\u00e9culo. Criada h\u00e1 mais de 160 anos, a ag\u00eancia pode fornecer uma vis\u00e3o de longo prazo dos acontecimentos na Europa incluindo categorias como: neg\u00f3cios, esportes, cultura, estilo de vida e opini\u00e3o, al\u00e9m de not\u00edcias.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Emoji Presentation Dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/uom190346a\/emoji-presentation-dataset\">https:\/\/www.kaggle.com\/datasets\/uom190346a\/emoji-presentation-dataset<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados &#8220;Emoji Presentation Data&#8221; fornece informa\u00e7\u00f5es abrangentes sobre v\u00e1rios caracteres de emoji, incluindo seus pontos de c\u00f3digo Unicode, status de apresenta\u00e7\u00e3o, representa\u00e7\u00f5es gr\u00e1ficas e nomes.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Hotel Reviews<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/datafiniti\/hotel-reviews\">https:\/\/www.kaggle.com\/datasets\/datafiniti\/hotel-reviews<\/a><br>Descri\u00e7\u00e3o: Esta \u00e9 uma lista de 1.000 hot\u00e9is e suas avalia\u00e7\u00f5es fornecidas pelo Banco de Dados Empresariais da Datafiniti. O conjunto de dados inclui localiza\u00e7\u00e3o do hotel, nome, classifica\u00e7\u00e3o, dados da avalia\u00e7\u00e3o, t\u00edtulo, nome de usu\u00e1rio e mais informa\u00e7\u00f5es.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>MuST-C: a Multilingual Speech Translation Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/sebaeymohamed\/must-c-en-ar\">https:\/\/www.kaggle.com\/datasets\/sebaeymohamed\/must-c-en-ar<\/a><br>Descri\u00e7\u00e3o: O MuST-C \u00e9 um corpus de tradu\u00e7\u00e3o de fala multil\u00edngue cujo tamanho e qualidade facilitar\u00e3o o treinamento de sistemas (&#8220;end-to-end&#8221;) para tradu\u00e7\u00e3o de fala do ingl\u00eas para v\u00e1rias l\u00ednguas-alvo. Para cada l\u00edngua-alvo, o MuST-C compreende v\u00e1rias centenas de horas de grava\u00e7\u00f5es de \u00e1udio de TED Talks em ingl\u00eas, que s\u00e3o automaticamente alinhadas ao n\u00edvel de senten\u00e7a com suas transcri\u00e7\u00f5es manuais e tradu\u00e7\u00f5es.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Common Voice<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/mozillaorg\/common-voice\"> https:\/\/www.kaggle.com\/datasets\/mozillaorg\/common-voice<\/a><br>Descri\u00e7\u00e3o: O Common Voice \u00e9 um corpus de dados de fala lido por usu\u00e1rios no site do Common Voice (http:\/\/voice.mozilla.org\/), e baseado em texto de v\u00e1rias fontes de dom\u00ednio p\u00fablico, como postagens em blogs enviadas por usu\u00e1rios, livros antigos, filmes e outros corpora de fala p\u00fablica. Seu principal objetivo \u00e9 possibilitar o treinamento e teste de sistemas de reconhecimento autom\u00e1tico de fala (ASR).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>South Park Dialogue<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/tovarischsukhov\/southparklines\">https:\/\/www.kaggle.com\/datasets\/tovarischsukhov\/southparklines<\/a><br>Descri\u00e7\u00e3o: Um conjunto de dados com mais de 70 mil linhas, anotado com informa\u00e7\u00f5es sobre a temporada, epis\u00f3dio e o falante.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Stanford Natural Language Inference Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/stanfordu\/stanford-natural-language-inference-corpus\">https:\/\/www.kaggle.com\/datasets\/stanfordu\/stanford-natural-language-inference-corpus<\/a><br>Descri\u00e7\u00e3o: O corpus SNLI (vers\u00e3o 1.0) \u00e9 uma cole\u00e7\u00e3o de 570 mil pares de frases em ingl\u00eas escritas por humanos, rotuladas manualmente para classifica\u00e7\u00e3o balanceada com as etiquetas de implica\u00e7\u00e3o, contradi\u00e7\u00e3o e neutro, apoiando a tarefa de infer\u00eancia de linguagem natural (NLI), tamb\u00e9m conhecida como reconhecimento de implica\u00e7\u00e3o textual (RTE).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>State of the Union Corpus (1790 &#8211; 2018)<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/state-of-the-union-corpus-1989-2017\">https:\/\/www.kaggle.com\/datasets\/rtatman\/state-of-the-union-corpus-1989-2017<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m os textos completos dos Discursos do Estado da Uni\u00e3o de 1989 (Reagan) at\u00e9 2017 (Trump).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>The Examiner &#8211; Spam Clickbait Catalog<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/therohk\/examine-the-examiner\"> https:\/\/www.kaggle.com\/datasets\/therohk\/examine-the-examiner<\/a><br>Descri\u00e7\u00e3o: Uma amostra contendo 3,08 milh\u00f5es de artigos publicados no site de pseudo not\u00edcias The Examiner.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Donald Trump Comments on Reddit<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/amalinow\/donald-trump-comments-on-reddit\"> https:\/\/www.kaggle.com\/datasets\/amalinow\/donald-trump-comments-on-reddit<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m mais de 37.000 coment\u00e1rios do Reddit sobre o ent\u00e3o novo presidente dos EUA, Donald Trump.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Blog Authorship Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/blog-authorship-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/blog-authorship-corpus<\/a><br>Descri\u00e7\u00e3o: Este corpus \u00e9 composto por posts coletados de 19.320 blogueiros reunidos do blogger.com em agosto de 2004 totalizando 681.288 posts e mais de 140 milh\u00f5es de palavras.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Lista de Stopword para 19 l\u00ednguas<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/rtatman\/stopword-lists-for-19-languages\"> https:\/\/www.kaggle.com\/datasets\/rtatman\/stopword-lists-for-19-languages<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m uma lista de palavras vazias (stopwords) para os seguintes idiomas (<em>Indica idiomas que n\u00e3o s\u00e3o da fam\u00edlia lingu\u00edstica indo-europeia): Ingl\u00eas, Franc\u00eas, Alem\u00e3o, Italiano, Espanhol, Portugu\u00eas, Finland\u00eas<\/em>, Sueco, \u00c1rabe*, Russo, H\u00fangaro, B\u00falgaro, Romeno, Tcheco, Polon\u00eas, Persa\/Farsi, Hindi, Marathi, Bengali.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>2024 Iowa:2K Trump FB Comments&amp;Public Sentiments<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/kanchana1990\/2024-iowa2k-trump-fb-comments-and-public-sentiment\"> https:\/\/www.kaggle.com\/datasets\/kanchana1990\/2024-iowa2k-trump-fb-comments-and-public-sentiment<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados oferece uma percep\u00e7\u00e3o do sentimento p\u00fablico em torno da postagem do ex-presidente Donald Trump sobre sua vit\u00f3ria nas pr\u00e9vias de Iowa de 2024. Ele compreende 2000 coment\u00e1rios do Facebook coletados usando a API de scraping do Apif.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><strong>Dataset: Human vs. LLM Text Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/starblasters8\/human-vs-llm-text-corpus\">https:\/\/www.kaggle.com\/datasets\/starblasters8\/human-vs-llm-text-corpus<\/a><br>Descri\u00e7\u00e3o: Este corpus cont\u00e9m aproximadamente 800.000 textos geradas por humanos e modelos de Intelig\u00eancia artificial.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> UN General Debates<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/unitednations\/un-general-debates\">https:\/\/www.kaggle.com\/datasets\/unitednations\/un-general-debates<\/a><br>Descri\u00e7\u00e3o: Este corpus cont\u00e9m transcri\u00e7\u00f5es dos debates gerais na ONU de 1970 \u00e0 2016.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Microsoft Research WikiQA Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/saurabhshahane\/wikiqa-corpus\">https:\/\/www.kaggle.com\/datasets\/saurabhshahane\/wikiqa-corpus<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados cont\u00e9m 3.047 perguntas e 29.258 frases, onde 1.473 frases foram rotuladas como frases de resposta para suas perguntas correspondentes.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Presidential Inaugural Addresses<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/adhok93\/presidentialaddress\/data\">https:\/\/www.kaggle.com\/datasets\/adhok93\/presidentialaddress\/data<\/a><br>Descri\u00e7\u00e3o: Este dataset cont\u00e9m os discurso de posse dos presidentes americanos de 1789 (George Washington) \u00e0 2017 (Donald Trump), al\u00e9m de metadados como nome, data e texto.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Ironic Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/ironic-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/ironic-corpus<\/a><br>Descri\u00e7\u00e3o: Este corpus cont\u00e9m 1950 coment\u00e1rios, que foram rotulados como ir\u00f4nicos (1) ou n\u00e3o ir\u00f4nicos (-1) por anotadores humanos. O texto foi retirado de coment\u00e1rios do Reddit.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>3 Million German Sentences<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/3-million-german-sentences\">https:\/\/www.kaggle.com\/datasets\/rtatman\/3-million-german-sentences<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m 3 milh\u00f5es de frases extra\u00eddas de textos de jornais em 2015. Al\u00e9m das pr\u00f3prias frases, este conjunto de dados cont\u00e9m informa\u00e7\u00f5es sobre a frequ\u00eancia de cada palavra.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>The Sign Language Analyses (SLAY) Database<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/sign-language-analyses\">https:\/\/www.kaggle.com\/datasets\/rtatman\/sign-language-analyses<\/a><br>Descri\u00e7\u00e3o: Este banco de dados cont\u00e9m informa\u00e7\u00f5es sobre os par\u00e2metros utilizados por 87 l\u00ednguas de sinais, retiradas de v\u00e1rias fontes acad\u00eamicas e compiladas manualmente.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Texas Death Row Executions Info and Last Words<\/strong><br>Link:<a href=\" https:\/\/www.kaggle.com\/datasets\/ianmobbs\/texas-death-row-executions-info-and-last-words\"> https:\/\/www.kaggle.com\/datasets\/ianmobbs\/texas-death-row-executions-info-and-last-words<\/a><br>Descri\u00e7\u00e3o: Este dataset inclui informa\u00e7\u00f5es sobre o nome, idade, ra\u00e7a, condado, data e \u00faltimas palavras dos detentos no corredor da morte do Texas de 1982 a 2017.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Politifact Fact Check Dataset<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rmisra\/politifact-fact-check-dataset\">https:\/\/www.kaggle.com\/datasets\/rmisra\/politifact-fact-check-dataset<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados cont\u00e9m 21.152 declara\u00e7\u00f5es que foram verificadas por especialistas. Todas as declara\u00e7\u00f5es est\u00e3o categorizadas em uma das 6 categorias: verdadeira, principalmente verdadeira, meio verdadeira, principalmente falsa, falsa e cal\u00e7a pegando fogo.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>120 Million Word Spanish Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/120-million-word-spanish-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/120-million-word-spanish-corpus<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados \u00e9 composto por 57 arquivos de texto. Cada um cont\u00e9m v\u00e1rios artigos da Wikipedia em um formato XML. O texto de cada artigo est\u00e1 anotado. A tag inicial tamb\u00e9m cont\u00e9m metadados sobre o artigo, incluindo o ID do artigo e o t\u00edtulo do artigo.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>2016 U.S. Presidential Campaign Texts and Polls<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/alandu20\/2016-us-presidential-campaign-texts-and-polls\">https:\/\/www.kaggle.com\/datasets\/alandu20\/2016-us-presidential-campaign-texts-and-polls<\/a><br>Descri\u00e7\u00e3o: Cole\u00e7\u00e3o de dados da Campanha Eleitoral Presidencial dos EUA de 2016 contendo: Transcri\u00e7\u00f5es dos tr\u00eas debates presidenciais, divididas em arquivos de texto separados para Trump e Clinton;<br>Transcri\u00e7\u00f5es dos 64 discursos de Trump entregues ap\u00f3s a RNC (Conven\u00e7\u00e3o Nacional Republicana) e dos 35 discursos de Clinton entregues ap\u00f3s a DNC (Conven\u00e7\u00e3o Nacional Democrata); Transcri\u00e7\u00f5es de discursos selecionados entregues pelos candidatos durante as campanhas prim\u00e1rias; Enquete Presidencial da USC Dornsife\/LA Times, com uma divis\u00e3o di\u00e1ria por grupos de eleitores; Enquete Eleitoral Five Thirty Eight, contendo dados di\u00e1rios de numerosos institutos de pesquisa.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: Korean &#8211; <strong>English Parallel Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rareloto\/naver-dictionary-conversation-of-the-day\">https:\/\/www.kaggle.com\/datasets\/rareloto\/naver-dictionary-conversation-of-the-day<\/a><br>Descri\u00e7\u00e3o: Este corpus paralelo de conversas cont\u00e9m 4563 pares de textos paralelos (coreano &#8211; ingl\u00eas), extra\u00eddo do Dicion\u00e1rio Naver.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Dataset Machado de Assis<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/luxedo\/machado-de-assis\">https:\/\/www.kaggle.com\/datasets\/luxedo\/machado-de-assis<\/a><br>Descri\u00e7\u00e3o: Este corpus \u00e9 composto por 116 obras de fic\u00e7\u00e3o e outros textos de Machado de Assis nos formatos pdf e txt nas categorias: Contos (7 livros), Cr\u00edticas (45 livros), Cr\u00f4nicas (24 livros), Miscel\u00e2nea (10 livros), Poesias (7 livros), Romances (10 livros), Teatro (10 livros), Tradu\u00e7\u00f5es (3 livros).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>The National University of Singapore SMS Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/the-national-university-of-singapore-sms-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/the-national-university-of-singapore-sms-corpus<\/a><br>Descri\u00e7\u00e3o: Este \u00e9 um corpus de mensagens de SMS (Servi\u00e7o de Mensagens Curtas) coletadas para pesquisa no Departamento de Ci\u00eancia da Computa\u00e7\u00e3o da Universidade Nacional de Singapura que consiste em 67.093 mensagens de SMS retiradas do corpus em 9 de mar\u00e7o de 2015. As mensagens s\u00e3o em sua maioria origin\u00e1rias de singapurianos e principalmente de estudantes que frequentam a universidade.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Brazilian Portuguese Literature Corpus<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/brazilian-portuguese-literature-corpus\">https:\/\/www.kaggle.com\/datasets\/rtatman\/brazilian-portuguese-literature-corpus<\/a><br>Descri\u00e7\u00e3o: Este \u00e9 um corpus de 3,7 milh\u00f5es de palavras da literatura brasileira publicada entre 1840 e 1908.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>North American Slave Narratives<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/docsouth-data\/north-american-slave-narratives\">https:\/\/www.kaggle.com\/datasets\/docsouth-data\/north-american-slave-narratives<\/a><br>Descri\u00e7\u00e3o: A cole\u00e7\u00e3o de Narrativas de Escravos Norte-Americanos na Universidade da Carolina do Norte cont\u00e9m 344 itens e \u00e9 a cole\u00e7\u00e3o mais extensa de tais documentos no mundo.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>ACL Accepted Papers<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/takahirokubo0\/acl-accepted-papers-20162018\">https:\/\/www.kaggle.com\/datasets\/takahirokubo0\/acl-accepted-papers-20162018<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados inclui os artigos aceitos (longos e curtos) pela Association for Computational linguistics de 2016 a 2018.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>NYTimes Article Lead Paragraphs 1851-2017<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/parsonsandrew1\/nytimes-article-lead-paragraphs-18512017\">https:\/\/www.kaggle.com\/datasets\/parsonsandrew1\/nytimes-article-lead-paragraphs-18512017<\/a><br>Descri\u00e7\u00e3o: Este corpus cont\u00e9m os primeiros par\u00e1grafos (leads) e datas de publica\u00e7\u00e3o de artigos do New York Times de 1851 a 2017.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>The Church in the Southern Black Community<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/docsouth-data\/the-church-in-the-southern-black-community\">https:\/\/www.kaggle.com\/datasets\/docsouth-data\/the-church-in-the-southern-black-community<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m 144 textos prim\u00e1rios sobre a Igreja na Comunidade Negra do Sul dos Estados Unidos.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Twitter Black Panther<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/farisai\/twitter-black-panther\">https:\/\/www.kaggle.com\/datasets\/farisai\/twitter-black-panther<\/a><br>Descri\u00e7\u00e3o: Estes tweets foram coletados usando a API de streaming do Twitter em 4 de mar\u00e7o de 2018. Os tweets s\u00e3o filtrados com base em duas palavras [Wakanda, Pantera Negra]<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Colonia Corpus of Historical Portuguese<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/rtatman\/colonia-corpus-of-historical-portuguese\">https:\/\/www.kaggle.com\/datasets\/rtatman\/colonia-corpus-of-historical-portuguese<\/a><br>Descri\u00e7\u00e3o: O corpus cont\u00e9m manuscritos completos em portugu\u00eas publicados de 1500 a 1936, divididos em 5 sub-corpora por s\u00e9culo. A classe gramatical (POS) das palavras neste corpus foi etiquetada usando o TreeTagger.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset:<strong> Legal Clauses<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/mohammedalrashidan\/contracts-clauses-datasets\">https:\/\/www.kaggle.com\/datasets\/mohammedalrashidan\/contracts-clauses-datasets<\/a><br>Descri\u00e7\u00e3o: A fonte de dados foi obtida a partir do scraping de um site de contratos de onde foram coletadas mais de 21 mil cl\u00e1usulas legais de 16 tipos de cl\u00e1usulas relacionadas a &#8216;finan\u00e7as&#8217;.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Twitter Text and Gender<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/s1m0n38\/twitter-text-and-gender\">https:\/\/www.kaggle.com\/datasets\/s1m0n38\/twitter-text-and-gender<\/a><br>Descri\u00e7\u00e3o: Corpus composto por 3.8 milh\u00f5es de tweets anotado por g\u00eanero (masculino = 0 e feminino = 1)<\/p>\n\n\n\n<p>Dataset: <strong>Multi-Dimensional Spotify Data<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/tonyberber\/multidimensional-spotify-data\">https:\/\/www.kaggle.com\/datasets\/tonyberber\/multidimensional-spotify-data<\/a><br>Descri\u00e7\u00e3o: Conjunto de dados composto por dados lexicais (dimens\u00f5es multidimensionais) e caracter\u00edsticas de \u00e1udio do Spotify para 97.745 m\u00fasicas em ingl\u00eas.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Twitter black lives matter 100k<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/alenjose\/twitter-black-lives-matter-100k\">https:\/\/www.kaggle.com\/datasets\/alenjose\/twitter-black-lives-matter-100k<\/a><br>Descri\u00e7\u00e3o: Uma cole\u00e7\u00e3o de 100 mil tweets coletados usando Snscrape com palavras-chave #BLM.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Dataset: <strong>Memotion Dataset 7k<\/strong><br>Link: https:\/\/www.kaggle.com\/datasets\/williamscott701\/memotion-dataset-7k<br>Descri\u00e7\u00e3o: Dataset composto por memes anotados manualmente com os r\u00f3tulos sarc\u00e1stico, engra\u00e7ado ou ofensivo.<br> <br>Dataset: <strong>ASL Fingerspelling Images (RGB &amp; Depth)<\/strong><br>Link: <a href=\"https:\/\/www.kaggle.com\/datasets\/mrgeislinger\/asl-rgb-depth-fingerspelling-spelling-it-out\">https:\/\/www.kaggle.com\/datasets\/mrgeislinger\/asl-rgb-depth-fingerspelling-spelling-it-out<\/a><br>Descri\u00e7\u00e3o: O conjunto de dados cont\u00e9m imagens RGB s e dados de profundidade (coletados de um Microsoft Kinect) de formas da L\u00edngua de Sinais Americana (ASL) correspondentes a 24 letras do alfabeto ingl\u00eas ( &#8220;X&#8221; e &#8220;Z&#8221; s\u00e3o exclu\u00eddos, pois dependem de movimento).<br> <br>Dataset: <strong>A Dataset of Noisy Typing on QWERTY Keyboards<\/strong><br>Link: <a href=\"https:\/\/osf.io\/5xwng\/\">https:\/\/osf.io\/5xwng\/<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m dados de digita\u00e7\u00e3o de participantes em nove estudos de entrada de texto previamente publicados. Os dados foram coletados usando uma variedade de dispositivos (telefone com tela sens\u00edvel ao toque, smartwatch, teclado de realidade virtual\/aumentada no ar, teclado de desktop), e utilizando diferentes recursos de teclado e estrat\u00e9gias de entrada do usu\u00e1rio. Todos os dados envolvem usu\u00e1rios digitando frases em ingl\u00eas em um teclado com layout QWERTY.<br> <br>Dataset: <strong>MiniEcoset<\/strong><br>Link: <a href=\"https:\/\/osf.io\/msna2\/\">https:\/\/osf.io\/msna2\/<\/a><br>Descri\u00e7\u00e3o: Este conjunto de dados cont\u00e9m 2350 imagens de treinamento, 50 imagens de valida\u00e7\u00e3o, 50 imagens de teste e 250 imagens &#8220;testplus&#8221; por classe. As classes s\u00e3o divididas em 5 categorias: natural-animal-mam\u00edferos (por exemplo, humano, gatos), natural-animal-resto (por exemplo, r\u00e9pteis, peixes), natural-inanimado (por exemplo, plantas, frutas), artificial-pequeno (por exemplo, c\u00e2mera, pizza), artificial-grande (por exemplo, bicicleta, piano). <br> <br>Dataset: <strong>ViTaFa &#8211; Vienna Talking Faces Database<\/strong><br>Link: <a href=\"https:\/\/osf.io\/9jtzx\/\">https:\/\/osf.io\/9jtzx\/<\/a><br>Descri\u00e7\u00e3o: ViTaFa \u00e9 um banco de dados multimodal contendo v\u00eddeos audiovisuais, grava\u00e7\u00f5es de voz e imagens est\u00e1ticas de 40 indiv\u00edduos com diferentes express\u00f5es (neutro, feliz, bravo, triste, flertando) e v\u00e1rios conte\u00fados falados.<br> <br>Dataset: <strong>English and Spanish prosody (EGG corpus)<\/strong><br>Link: <a href=\"https:\/\/osf.io\/egwx5\/\">https:\/\/osf.io\/egwx5\/<\/a><br>Descri\u00e7\u00e3o: Este conjunto cont\u00e9m dados relacionados \u00e0 pros\u00f3dia da l\u00edngua inglesa e espanhola utilizados em Garellek, M. (2014). Um estudo sobre o fortalecimento da qualidade vocal e glotaliza\u00e7\u00e3o.<br> <br>Dataset: <strong>Data and R codes for Exploring diachronic salience of emotion metaphors: A contrastive study of HAPPINESS metaphors in Classical Malay and Indonesian<\/strong><br>Link: <a href=\"https:\/\/osf.io\/2y846\/\">https:\/\/osf.io\/2y846\/<\/a><br>Descri\u00e7\u00e3o: Reposit\u00f3rio de conjunto de dados, c\u00f3digos R e figuras para o estudo de met\u00e1foras de FELICIDADE nas l\u00ednguas Malay Cl\u00e1ssica e Indon\u00e9sia.  <br> <br>Dataset: <strong>Warsaw Set of Emotional Facial Expression Pictures<\/strong><br>Link: <a href=\"https:\/\/osf.io\/7xgz9\/\">https:\/\/osf.io\/7xgz9\/<\/a><br>Descri\u00e7\u00e3o: Fotos de Express\u00f5es Faciais Emocionais de Vars\u00f3via (WSEFEP) \u00e9 um conjunto de 210 fotos (14 homens e 16 mulheres) de cada emo\u00e7\u00e3o b\u00e1sica: felicidade, surpresa, medo, tristeza, raiva e repulsa (e imagens de rostos neutros).<br> <br>Dataset: <strong>Exploring phonetic predictors of intelligibility, comprehensibility, and foreign accent in L2 Spanish speech<\/strong><br>Link:<a href=\" https:\/\/osf.io\/m2r49\/\"> https:\/\/osf.io\/m2r49\/<\/a><br>Descri\u00e7\u00e3o: Cont\u00e9m \u00e1udios com falas de estrangeiros falantes de espanhol como L2. <br> <br>Dataset: <strong>Hate Speech Library in Spanish<\/strong><br>Link: <a href=\"https:\/\/osf.io\/8ksuy\/\">https:\/\/osf.io\/8ksuy\/<\/a><br>Descri\u00e7\u00e3o: O banco de dados cont\u00e9m 7.210 slogans simples e compostos repetidos, os quais, do ponto de vista sem\u00e2ntico, tendem a ser odiados na m\u00eddia de not\u00edcias digitais na Espanha.<br> <br>Dataset: <strong>Using machine learning to understand the relationships between audiometric data, speech perception, temporal processing, and cognition<\/strong><br>Link: <a href=\"https:\/\/osf.io\/ta7kf\/\">https:\/\/osf.io\/ta7kf\/<\/a><br>Descri\u00e7\u00e3o: Dados audiom\u00e9tricos, perceptuais, eletrofisiol\u00f3gicos e cognitivos foram usados para prever a percep\u00e7\u00e3o da fala em ru\u00eddo, reverbera\u00e7\u00e3o e com compress\u00e3o temporal<br><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>","protected":false},"excerpt":{"rendered":"<p>Dataset: Ukraine tweetsLink: https:\/\/www.kaggle.com\/datasets\/dariusalexandru\/russian-propaganda-tweets-vs-western-tweets-warDescri\u00e7\u00e3o: Este reposit\u00f3rio cont\u00e9m tweets sobre a guerra na Ucr\u00e2nia coletados de ambos os lados. O dataset [&hellip;]<\/p>","protected":false},"author":8,"featured_media":0,"parent":1567,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"ngg_post_thumbnail":0,"footnotes":""},"class_list":["post-1598","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/pages\/1598","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/users\/8"}],"replies":[{"embeddable":true,"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/comments?post=1598"}],"version-history":[{"count":15,"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/pages\/1598\/revisions"}],"predecessor-version":[{"id":1678,"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/pages\/1598\/revisions\/1678"}],"up":[{"embeddable":true,"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/pages\/1567"}],"wp:attachment":[{"href":"https:\/\/cienciaaberta.org\/en\/wp-json\/wp\/v2\/media?parent=1598"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}