Outros Projetos

Dataset: Ukraine tweets
Link: https://www.kaggle.com/datasets/dariusalexandru/russian-propaganda-tweets-vs-western-tweets-war
Descrição: Este repositório contém tweets sobre a guerra na Ucrânia coletados de ambos os lados. O dataset contém contas russas e de fontes ocidentais desde o início da guerra na Ucrânia até 9 de maio de 2022.

Dataset: CHILDES English-L2 Paradis Corpus
Link: https://childes.talkbank.org/access/Biling/Paradis.html
Descrição: O corpus Paradis consiste em amostras de linguagem naturalista de 25 crianças aprendendo inglês como segunda língua (aprendizes de língua inglesa ou aprendizes de inglês como língua adicional). A transcrição é apenas em ortografia inglesa; a transcrição fonética não foi incluída nesta pesquisa. Quaisquer nomes reais de pessoas ou lugares nas transcrições foram substituídos por pseudônimos. Os participantes são identificados com códigos de quatro letras.

Dataset: Star Wars Movie Scripts
Link: https://www.kaggle.com/datasets/xvivancos/star-wars-movie-scripts
Descrição: Star Wars é uma franquia de filmes popular que se passa em uma galáxia muito, muito distante. Esta é uma coleção de diálogos de roteiro entre personagens para os três primeiros filmes (episódios 4-6). Estes dados devem servir como uma forma divertida de implementar mineração de texto e linguística.

Dataset: English-French Translation Dataset
Link: https://www.kaggle.com/datasets/dhruvildave/en-fr-translation-dataset
Descrição: Textos paralelos em francês/inglês para treinamento de modelos de tradução. Mais de 22,5 milhões de frases em francês e inglês coletados de milhões de páginas da web. Este é o conjunto de dados principal da Oficina de Tradução Automática Estatística (WML) de 2015, que pode ser usado para Tradução Automática e Modelos de Linguagem.

Dataset: Emotion Dataset for Emotion Recognition Tasks
Link: https://www.kaggle.com/datasets/parulpandey/emotion-dataset
Descrição: Um conjunto de dados de mensagens em inglês do Twitter com seis emoções básicas: raiva, medo, alegria, amor, tristeza e surpresa. Os autores construíram um conjunto de hashtags para coletar um conjunto separado de tweets em inglês da API do Twitter pertencentes a oito emoções básicas, incluindo raiva, antecipação, repulsa, medo, alegria, tristeza, surpresa e confiança.

Dataset: WALS dataset
Link: https://www.kaggle.com/datasets/averkij/wals-dataset
Descrição: O World Atlas of Language Structures (WALS) é uma grande base de dados de propriedades estruturais (fonológicas, gramaticais, lexicais) das línguas coletadas a partir de materiais descritivos (como gramáticas de referência)

Dataset: CNN-DailyMail News Text Summarization
Link: https://www.kaggle.com/datasets/gowrishankarp/newspaper-text-summarization-cnn-dailymail
Descrição: Trata-se de um conjunto de dados em inglês que contém um pouco mais de 300.000 artigos de notícias únicos escritos por jornalistas da CNN e do Daily Mail.

Dataset: News Category Dataset
Link: https://www.kaggle.com/datasets/rmisra/news-category-dataset
Descrição: Este conjunto de dados contém cerca de 210 mil manchetes de notícias de 2012 a 2022 do HuffPost. Este é um dos maiores conjuntos de dados de notícias e pode servir como referência para uma variedade de tarefas linguísticas computacionais. O HuffPost deixou de manter um extenso arquivo de artigos de notícias em algum momento após a coleta inicial deste conjunto de dados em 2018, portanto, não é possível coletar um conjunto de dados semelhante nos dias atuais. Devido a mudanças no site, existem cerca de 200 mil manchetes entre 2012 e maio de 2018 e 10 mil manchetes entre maio de 2018 e 2022.

Dataset: The Enron Email Dataset
Link: https://www.kaggle.com/datasets/wcukierski/enron-email-dataset
Descrição: O conjunto de dados de e-mails da Enron contém aproximadamente 500.000 e-mails gerados por funcionários da Corporação Enron. Foi obtido pela Comissão Federal Reguladora de Energia durante sua investigação sobre o colapso da Enron.

Dataset: Emoticon Dictionary
Link: https://www.kaggle.com/datasets/ahmedshahriarsakib/emoticon-dictionary
Descrição: Dicionário de emoticons frequentemente usados com sua representação textual.

Dataset:CoLA: The Corpus of Linguistic Acceptability
Link: https://www.kaggle.com/datasets/krazy47/cola-the-corpus-of-linguistic-acceptability
Descrição: O Corpus de Aceitabilidade Linguística (CoLA) consiste em 10657 frases de 23 publicações linguísticas, cuidadosamente anotadas quanto à aceitabilidade (gramaticalidade) por seus autores originais.

Dataset: English Word Frequency
Link: https://www.kaggle.com/datasets/rtatman/english-word-frequency
Descrição: Este conjunto de dados contém a contagem das 333.333 palavras únicas mais comumente utilizadas na web em inglês, derivadas do Corpus de Trilhões de Palavras da Web do Google.

Dataset: CNN-DailyMail News Text Summarization
Link: https://www.kaggle.com/datasets/gowrishankarp/newspaper-text-summarization-cnn-dailymail
Descrição: É um conjunto de dados em inglês que contém mais de 300 mil artigos de notícias únicos escritos por jornalistas da CNN e do Daily Mail.

Dataset: Gender Recognition by Voice
Link: https://www.kaggle.com/datasets/primaryobjects/voicegender
Descrição: Este banco de dados foi criado para identificar uma voz como masculina ou feminina, com base em propriedades acústicas da voz e da fala. O conjunto de dados consiste em 3.168 amostras de voz gravadas, coletadas de falantes masculinos e femininos. As amostras de voz são pré-processadas por análise acústica no R usando os pacotes seewave e tuneR, com uma faixa de frequência analisada de 0 Hz a 280 Hz (faixa vocal humana).

Dataset: Punkt Sentence Tokenizer Models
Link: https://www.kaggle.com/datasets/nltkdata/punkt
Descrição: O arquivo punkt.zip contém modelos pré-treinados do tokenizador de sentenças Punkt (Kiss and Strunk, 2006) que detectam os limites das sentenças. Esses modelos são utilizados pela função nltk.sent_tokenize da biblioteca python Natural Language Tool Kit (NLTK) para dividir uma string em uma lista de sentenças.

Dataset: Fraudulent E-mail Corpus
Link: https://www.kaggle.com/datasets/rtatman/fraudulent-email-corpus
Descrição: Este conjunto de dados é uma coleção de mais de 2.500 “Cartas de Fraude Nigeriana”, datadas de 1998 a 2007.

Dataset: SMS Spam Collection Dataset
Link: https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset
Descrição: Este dataset é um conjunto de mensagens SMS coletadas para pesquisa de spam de SMS. Contém um conjunto de mensagens SMS em inglês com 5.574 mensagens, anotadas como sendo legítimas (ham) ou spam.

Dataset: DARPA TIMIT Acoustic-Phonetic Continuous Speech
Link: https://www.kaggle.com/datasets/mfekadu/darpa-timit-acousticphonetic-continuous-speech
Descrição: O corpus TIMIT de fala lida foi projetado para fornecer dados de fala para a aquisição de conhecimento acústico-fonético e para o desenvolvimento e avaliação de sistemas de reconhecimento automático de fala.

Dataset: Speech Accent Archive
Link: https://www.kaggle.com/datasets/rtatman/speech-accent-archive
Descrição: Este conjunto de dados contém 2140 amostras de fala em Inglês, cada uma proveniente de um falante diferente lendo o mesmo trecho de leitura. Os falantes vêm de 177 países e têm 214 idiomas nativos diferentes.

Dataset: Online Job Postings
Link: https://www.kaggle.com/datasets/madhab/jobposts
Descrição:O conjunto de dados consiste em 19.000 anúncios de emprego que foram publicados através do portal armênio de recursos humanos CareerCenter. Os dados foram extraídos do grupo de e-mail do Yahoo! https://groups.yahoo.com/neo/groups/careercenter-am

Dataset: Question-Answer Jokes
Link: https://www.kaggle.com/datasets/jiriroz/qa-jokes
Descrição: Este conjunto de dados contém 38.269 piadas no formato pergunta-resposta, obtidas do subreddit r/Jokes. O conjunto de dados contém um arquivo CSV, onde cada linha contém uma pergunta (“Por que o frango atravessou a rua”), a resposta correspondente (“Para chegar ao outro lado”) e um ID único.

Dataset: Movie Dialog Corpus
Link: https://www.kaggle.com/datasets/Cornell-University/movie-dialog-corpus
Descrição: Este corpus contém uma coleção rica em metadados de conversas fictícias extraídas de scripts de filmes totalizando 304.713 enunciados e incluindo os metadados: gêneros, ano de lançamento, classificação do IMDB e número de votos do IMDB.

Dataset: Short Jokes
Link: https://www.kaggle.com/datasets/abhinavmoudgil95/short-jokes
Descrição: Este conjunto de dados em formato de arquivo CSV contém 231.657 piadas. O comprimento das piadas varia de 10 a 200 caracteres. Cada linha no arquivo contém um ID único e uma piada.

Dataset: Democrat Vs. Republican Tweets
Link: https://www.kaggle.com/datasets/kapastor/democratvsrepublicantweets
Descrição: O conjunto de dados contém dois arquivos, ambos em formato .csv. O primeiro é uma lista do partido político e os identificadores dos representantes, e o segundo são os 200 tweets mais recentes até maio de 2018 desses usuários do Twitter.

Dataset: Amazon reviews: Kindle Store Category
Link: https://www.kaggle.com/datasets/bharadwaj6/kindle-reviews
Descrição: Conjunto de dados de avaliações de produtos da categoria Amazon Kindle Store de maio de 1996 a julho de 2014. Contém um total de 982.619 entradas. Cada avaliador tem pelo menos 5 avaliações e cada produto tem pelo menos 5 avaliações neste conjunto de dados.

Dataset: Irish Times – Waxy-Wany News
Link: https://www.kaggle.com/datasets/therohk/ireland-historical-news
Descrição: Este conjunto de dados de notícias é uma composição de 1,61 milhão de manchetes publicadas pelo Irish Times, que cobrem um quarto de século. Criada há mais de 160 anos, a agência pode fornecer uma visão de longo prazo dos acontecimentos na Europa incluindo categorias como: negócios, esportes, cultura, estilo de vida e opinião, além de notícias.

Dataset: Emoji Presentation Dataset
Link: https://www.kaggle.com/datasets/uom190346a/emoji-presentation-dataset
Descrição: O conjunto de dados “Emoji Presentation Data” fornece informações abrangentes sobre vários caracteres de emoji, incluindo seus pontos de código Unicode, status de apresentação, representações gráficas e nomes.

Dataset: Hotel Reviews
Link: https://www.kaggle.com/datasets/datafiniti/hotel-reviews
Descrição: Esta é uma lista de 1.000 hotéis e suas avaliações fornecidas pelo Banco de Dados Empresariais da Datafiniti. O conjunto de dados inclui localização do hotel, nome, classificação, dados da avaliação, título, nome de usuário e mais informações.

Dataset: MuST-C: a Multilingual Speech Translation Corpus
Link: https://www.kaggle.com/datasets/sebaeymohamed/must-c-en-ar
Descrição: O MuST-C é um corpus de tradução de fala multilíngue cujo tamanho e qualidade facilitarão o treinamento de sistemas (“end-to-end”) para tradução de fala do inglês para várias línguas-alvo. Para cada língua-alvo, o MuST-C compreende várias centenas de horas de gravações de áudio de TED Talks em inglês, que são automaticamente alinhadas ao nível de sentença com suas transcrições manuais e traduções.

Dataset: Common Voice
Link: https://www.kaggle.com/datasets/mozillaorg/common-voice
Descrição: O Common Voice é um corpus de dados de fala lido por usuários no site do Common Voice (http://voice.mozilla.org/), e baseado em texto de várias fontes de domínio público, como postagens em blogs enviadas por usuários, livros antigos, filmes e outros corpora de fala pública. Seu principal objetivo é possibilitar o treinamento e teste de sistemas de reconhecimento automático de fala (ASR).

Dataset: South Park Dialogue
Link: https://www.kaggle.com/datasets/tovarischsukhov/southparklines
Descrição: Um conjunto de dados com mais de 70 mil linhas, anotado com informações sobre a temporada, episódio e o falante.

Dataset: Stanford Natural Language Inference Corpus
Link: https://www.kaggle.com/datasets/stanfordu/stanford-natural-language-inference-corpus
Descrição: O corpus SNLI (versão 1.0) é uma coleção de 570 mil pares de frases em inglês escritas por humanos, rotuladas manualmente para classificação balanceada com as etiquetas de implicação, contradição e neutro, apoiando a tarefa de inferência de linguagem natural (NLI), também conhecida como reconhecimento de implicação textual (RTE).

Dataset: State of the Union Corpus (1790 – 2018)
Link: https://www.kaggle.com/datasets/rtatman/state-of-the-union-corpus-1989-2017
Descrição: Este conjunto de dados contém os textos completos dos Discursos do Estado da União de 1989 (Reagan) até 2017 (Trump).

Dataset: The Examiner – Spam Clickbait Catalog
Link: https://www.kaggle.com/datasets/therohk/examine-the-examiner
Descrição: Uma amostra contendo 3,08 milhões de artigos publicados no site de pseudo notícias The Examiner.

Dataset: Donald Trump Comments on Reddit
Link: https://www.kaggle.com/datasets/amalinow/donald-trump-comments-on-reddit
Descrição: Este conjunto de dados contém mais de 37.000 comentários do Reddit sobre o então novo presidente dos EUA, Donald Trump.

Dataset: Blog Authorship Corpus
Link: https://www.kaggle.com/datasets/rtatman/blog-authorship-corpus
Descrição: Este corpus é composto por posts coletados de 19.320 blogueiros reunidos do blogger.com em agosto de 2004 totalizando 681.288 posts e mais de 140 milhões de palavras.

Dataset: Lista de Stopword para 19 línguas
Link: https://www.kaggle.com/datasets/rtatman/stopword-lists-for-19-languages
Descrição: Este conjunto de dados contém uma lista de palavras vazias (stopwords) para os seguintes idiomas (Indica idiomas que não são da família linguística indo-europeia): Inglês, Francês, Alemão, Italiano, Espanhol, Português, Finlandês, Sueco, Árabe*, Russo, Húngaro, Búlgaro, Romeno, Tcheco, Polonês, Persa/Farsi, Hindi, Marathi, Bengali.

Dataset: 2024 Iowa:2K Trump FB Comments&Public Sentiments
Link: https://www.kaggle.com/datasets/kanchana1990/2024-iowa2k-trump-fb-comments-and-public-sentiment
Descrição: Este conjunto de dados oferece uma percepção do sentimento público em torno da postagem do ex-presidente Donald Trump sobre sua vitória nas prévias de Iowa de 2024. Ele compreende 2000 comentários do Facebook coletados usando a API de scraping do Apif

Dataset: Human vs. LLM Text Corpus
Link: https://www.kaggle.com/datasets/starblasters8/human-vs-llm-text-corpus
Descrição: Este corpus contém aproximadamente 800.000 textos geradas por humanos e modelos de Inteligência artificial.

Dataset: UN General Debates
Link: https://www.kaggle.com/datasets/unitednations/un-general-debates
Descrição: Este corpus contém transcrições dos debates gerais na ONU de 1970 à 2016.

Dataset: Microsoft Research WikiQA Corpus
Link: https://www.kaggle.com/datasets/saurabhshahane/wikiqa-corpus
Descrição: O conjunto de dados contém 3.047 perguntas e 29.258 frases, onde 1.473 frases foram rotuladas como frases de resposta para suas perguntas correspondentes.

Dataset: Presidential Inaugural Addresses
Link: https://www.kaggle.com/datasets/adhok93/presidentialaddress/data
Descrição: Este dataset contém os discurso de posse dos presidentes americanos de 1789 (George Washington) à 2017 (Donald Trump), além de metadados como nome, data e texto.

Dataset: Ironic Corpus
Link: https://www.kaggle.com/datasets/rtatman/ironic-corpus
Descrição: Este corpus contém 1950 comentários, que foram rotulados como irônicos (1) ou não irônicos (-1) por anotadores humanos. O texto foi retirado de comentários do Reddit.

Dataset: 3 Million German Sentences
Link: https://www.kaggle.com/datasets/rtatman/3-million-german-sentences
Descrição: Este conjunto de dados contém 3 milhões de frases extraídas de textos de jornais em 2015. Além das próprias frases, este conjunto de dados contém informações sobre a frequência de cada palavra.

Dataset: The Sign Language Analyses (SLAY) Database
Link: https://www.kaggle.com/datasets/rtatman/sign-language-analyses
Descrição: Este banco de dados contém informações sobre os parâmetros utilizados por 87 línguas de sinais, retiradas de várias fontes acadêmicas e compiladas manualmente.

Dataset: Texas Death Row Executions Info and Last Words
Link: https://www.kaggle.com/datasets/ianmobbs/texas-death-row-executions-info-and-last-words
Descrição: Este dataset inclui informações sobre o nome, idade, raça, condado, data e últimas palavras dos detentos no corredor da morte do Texas de 1982 a 2017.

Dataset: Politifact Fact Check Dataset
Link: https://www.kaggle.com/datasets/rmisra/politifact-fact-check-dataset
Descrição: O conjunto de dados contém 21.152 declarações que foram verificadas por especialistas. Todas as declarações estão categorizadas em uma das 6 categorias: verdadeira, principalmente verdadeira, meio verdadeira, principalmente falsa, falsa e calça pegando fogo.

Dataset: 120 Million Word Spanish Corpus
Link: https://www.kaggle.com/datasets/rtatman/120-million-word-spanish-corpus
Descrição: Este conjunto de dados é composto por 57 arquivos de texto. Cada um contém vários artigos da Wikipedia em um formato XML. O texto de cada artigo está anotado. A tag inicial também contém metadados sobre o artigo, incluindo o ID do artigo e o título do artigo.

Dataset: 2016 U.S. Presidential Campaign Texts and Polls
Link: https://www.kaggle.com/datasets/alandu20/2016-us-presidential-campaign-texts-and-polls
Descrição: Coleção de dados da Campanha Eleitoral Presidencial dos EUA de 2016 contendo: Transcrições dos três debates presidenciais, divididas em arquivos de texto separados para Trump e Clinton;
Transcrições dos 64 discursos de Trump entregues após a RNC (Convenção Nacional Republicana) e dos 35 discursos de Clinton entregues após a DNC (Convenção Nacional Democrata); Transcrições de discursos selecionados entregues pelos candidatos durante as campanhas primárias; Enquete Presidencial da USC Dornsife/LA Times, com uma divisão diária por grupos de eleitores; Enquete Eleitoral Five Thirty Eight, contendo dados diários de numerosos institutos de pesquisa.

Dataset: Korean – English Parallel Corpus
Link: https://www.kaggle.com/datasets/rareloto/naver-dictionary-conversation-of-the-day
Descrição: Este corpus paralelo de conversas contém 4563 pares de textos paralelos (coreano – inglês), extraído do Dicionário Naver.

Dataset: Dataset Machado de Assis
Link: https://www.kaggle.com/datasets/luxedo/machado-de-assis
Descrição: Este corpus é composto por 116 obras de ficção e outros textos de Machado de Assis nos formatos pdf e txt nas categorias: Contos (7 livros), Críticas (45 livros), Crônicas (24 livros), Miscelânea (10 livros), Poesias (7 livros), Romances (10 livros), Teatro (10 livros), Traduções (3 livros).

Dataset: The National University of Singapore SMS Corpus
Link: https://www.kaggle.com/datasets/rtatman/the-national-university-of-singapore-sms-corpus
Descrição: Este é um corpus de mensagens de SMS (Serviço de Mensagens Curtas) coletadas para pesquisa no Departamento de Ciência da Computação da Universidade Nacional de Singapura que consiste em 67.093 mensagens de SMS retiradas do corpus em 9 de março de 2015. As mensagens são em sua maioria originárias de singapurianos e principalmente de estudantes que frequentam a universidade.

Dataset: Brazilian Portuguese Literature Corpus
Link: https://www.kaggle.com/datasets/rtatman/brazilian-portuguese-literature-corpus
Descrição: Este é um corpus de 3,7 milhões de palavras da literatura brasileira publicada entre 1840 e 1908.

Dataset: North American Slave Narratives
Link: https://www.kaggle.com/datasets/docsouth-data/north-american-slave-narratives
Descrição: A coleção de Narrativas de Escravos Norte-Americanos na Universidade da Carolina do Norte contém 344 itens e é a coleção mais extensa de tais documentos no mundo.

Dataset: ACL Accepted Papers
Link: https://www.kaggle.com/datasets/takahirokubo0/acl-accepted-papers-20162018
Descrição: Este conjunto de dados inclui os artigos aceitos (longos e curtos) pela Association for Computational linguistics de 2016 a 2018.

Dataset: NYTimes Article Lead Paragraphs 1851-2017
Link: https://www.kaggle.com/datasets/parsonsandrew1/nytimes-article-lead-paragraphs-18512017
Descrição: Este corpus contém os primeiros parágrafos (leads) e datas de publicação de artigos do New York Times de 1851 a 2017.

Dataset: The Church in the Southern Black Community
Link: https://www.kaggle.com/datasets/docsouth-data/the-church-in-the-southern-black-community
Descrição: Este conjunto de dados contém 144 textos primários sobre a Igreja na Comunidade Negra do Sul dos Estados Unidos.

Dataset: Twitter Black Panther
Link: https://www.kaggle.com/datasets/farisai/twitter-black-panther
Descrição: Estes tweets foram coletados usando a API de streaming do Twitter em 4 de março de 2018. Os tweets são filtrados com base em duas palavras [Wakanda, Pantera Negra]

Dataset: Colonia Corpus of Historical Portuguese
Link: https://www.kaggle.com/datasets/rtatman/colonia-corpus-of-historical-portuguese
Descrição: O corpus contém manuscritos completos em português publicados de 1500 a 1936, divididos em 5 sub-corpora por século. A classe gramatical (POS) das palavras neste corpus foi etiquetada usando o TreeTagger.

Dataset: Legal Clauses
Link: https://www.kaggle.com/datasets/mohammedalrashidan/contracts-clauses-datasets
Descrição: A fonte de dados foi obtida a partir do scraping de um site de contratos de onde foram coletadas mais de 21 mil cláusulas legais de 16 tipos de cláusulas relacionadas a ‘finanças’.

Dataset: Twitter Text and Gender
Link: https://www.kaggle.com/datasets/s1m0n38/twitter-text-and-gender
Descrição: Corpus composto por 3.8 milhões de tweets anotado por gênero (masculino = 0 e feminino = 1)

Dataset: Multi-Dimensional Spotify Data
Link: https://www.kaggle.com/datasets/tonyberber/multidimensional-spotify-data
Descrição: Conjunto de dados composto por dados lexicais (dimensões multidimensionais) e características de áudio do Spotify para 97.745 músicas em inglês.

Dataset: Twitter black lives matter 100k
Link: https://www.kaggle.com/datasets/alenjose/twitter-black-lives-matter-100k
Descrição: Uma coleção de 100 mil tweets coletados usando Snscrape com palavras-chave #BLM.

en_USEN
Portal da Ciência Aberta