Outros dados linguísticos
Dataset: CNN-DailyMail News Text Summarization
Link: https://www.kaggle.com/datasets/gowrishankarp/newspaper-text-summarization-cnn-dailymail
Descrição: Trata-se de um conjunto de dados em inglês que contém um pouco mais de 300.000 artigos de notícias únicos escritos por jornalistas da CNN e do Daily Mail.
Dataset: CHILDES English-L2 Paradis Corpus
Link: https://childes.talkbank.org/access/Biling/Paradis.html
Descrição: O corpus Paradis consiste em amostras de linguagem naturalista de 25 crianças aprendendo inglês como segunda língua (aprendizes de língua inglesa ou aprendizes de inglês como língua adicional). A transcrição é apenas em ortografia inglesa; a transcrição fonética não foi incluída nesta pesquisa. Quaisquer nomes reais de pessoas ou lugares nas transcrições foram substituídos por pseudônimos. Os participantes são identificados com códigos de quatro letras.
Dataset: Ukraine tweets
Link: https://www.kaggle.com/datasets/dariusalexandru/russian-propaganda-tweets-vs-western-tweets-war
Descrição: Este repositório contém tweets sobre a guerra na Ucrânia coletados de ambos os lados. O dataset contém contas russas e de fontes ocidentais desde o início da guerra na Ucrânia até 9 de maio de 2022.
Dataset: English-French Translation DatasetLink: https://www.kaggle.com/datasets/dhruvildave/en-fr-translation-dataset
Descrição: Textos paralelos em francês/inglês para treinamento de modelos de tradução. Mais de 22,5 milhões de frases em francês e inglês coletados de milhões de páginas da web. Este é o conjunto de dados principal da Oficina de Tradução Automática Estatística (WML) de 2015, que pode ser usado para Tradução Automática e Modelos de Linguagem.
Dataset: Star Wars Movie Scripts
Link: https://www.kaggle.com/datasets/xvivancos/star-wars-movie-scripts
Descrição: Star Wars é uma franquia de filmes popular que se passa em uma galáxia muito, muito distante. Esta é uma coleção de diálogos de roteiro entre personagens para os três primeiros filmes (episódios 4-6). Estes dados devem servir como uma forma divertida de implementar mineração de texto e linguística.
Dataset: Emotion Dataset for Emotion Recognition Tasks
Link: https://www.kaggle.com/datasets/parulpandey/emotion-dataset
Descrição: Um conjunto de dados de mensagens em inglês do Twitter com seis emoções básicas: raiva, medo, alegria, amor, tristeza e surpresa. Os autores construíram um conjunto de hashtags para coletar um conjunto separado de tweets em inglês da API do Twitter pertencentes a oito emoções básicas, incluindo raiva, antecipação, repulsa, medo, alegria, tristeza, surpresa e confiança.
Dataset: WALS dataset
Link: https://www.kaggle.com/datasets/averkij/wals-dataset
Descrição: O World Atlas of Language Structures (WALS) é uma grande base de dados de propriedades estruturais (fonológicas, gramaticais, lexicais) das línguas coletadas a partir de materiais descritivos (como gramáticas de referência).
Dataset: News Category Dataset
Link: https://www.kaggle.com/datasets/rmisra/news-category-dataset
Descrição: Este conjunto de dados contém cerca de 210 mil manchetes de notícias de 2012 a 2022 do HuffPost. Este é um dos maiores conjuntos de dados de notícias e pode servir como referência para uma variedade de tarefas linguísticas computacionais. O HuffPost deixou de manter um extenso arquivo de artigos de notícias em algum momento após a coleta inicial deste conjunto de dados em 2018, portanto, não é possível coletar um conjunto de dados semelhante nos dias atuais. Devido a mudanças no site, existem cerca de 200 mil manchetes entre 2012 e maio de 2018 e 10 mil manchetes entre maio de 2018 e 2022.
Dataset: The Enron Email Dataset
Link: https://www.kaggle.com/datasets/wcukierski/enron-email-dataset
Descrição: O conjunto de dados de e-mails da Enron contém aproximadamente 500.000 e-mails gerados por funcionários da Corporação Enron. Foi obtido pela Comissão Federal Reguladora de Energia durante sua investigação sobre o colapso da Enron.
Dataset: Emoticon Dictionary
Link: https://www.kaggle.com/datasets/ahmedshahriarsakib/emoticon-dictionary
Descrição: Dicionário contém emoticons frequentemente usados com sua representação textual.