Uma lista com 15 datasets interessantes que vimos por aí
Datasets são parte essencial do sucesso de um projeto de ML. Neste artigo, reunimos algumas das opções mais interessantes que vimos por aí.
Todo projeto de Machine Learning conta com um bom dataset. É este grande conjunto de dados que vai permitir que você treine e valide o seu modelo de ML.
Então, boa parte do trabalho em um projeto de ML é encontrar o dataset perfeito para as suas necessidades. Entretanto, nem sempre é possível encontrar uma opção de acordo com a sua ambição, já que muitos arquivos que parecem interessantes, no final, não são.
Sabemos que você não quer perder tempo baixando inúmeros datasets até chegar em um conjunto ideal. Pensando nisso, reunimos algumas opções que nos parecem interessantes e podem ajudar você a desenvolver o seu projeto de ML.
Note que alguns são destinados a uso pessoal, e não comercial, portanto encare as opções como uma maneira de ganhar experiência no universo de ML.
Se IA ainda é uma novidade para você, então comece por aqui:
Antes de citarmos quais são os datasets escolhidos pela equipe do Simple, vamos às definições.
Em projetos de inteligência artificial, especialmente Machine Learning, é necessária uma grande quantidade de dados, que vão participar do treinamento do algoritmo.
Este monte de dados está reunido em um conjunto chamado database, item extremamente útil para ensinar um algoritmo, já que, como dissemos, ele aprende a partir de dados.
Com esses dados, o algoritmo é treinado – também testado – e se torna capaz de encontrar padrões, estabelecer relações e, assim, tomar decisões de maneira autônoma.
Sem treinamento, os algoritmos de Machine Learning são incapazes de realizar qualquer ação. Por isso, quanto melhor for o treinamento de dados, melhor o modelo irá performar.
Para um database ser útil ao projeto, não é sobre quantidade: também é sobre classificação.
O ideal é que os dados estejam bem rotulados.
Pense no caso de chatbots: a inserção de linguagem é importante, mas é preciso que seja feita uma análise sintática cuidadosa para que o algoritmo criado possa entender quando o interlocutor está usando gírias. Só assim o assistente virtual vai poder lançar a resposta de acordo com o que foi solicitado pelo usuário.
Datasets podem ser gerados a partir de pesquisas, dados de compra dos usuários, avaliações deixadas em serviços e em muitas outras formas que permitam reunir informações úteis organizadas em colunas e linhas num arquivo CSV.
Antes de se lançar na busca do dataset perfeito, é importante você saber a finalidade do seu projeto, especialmente se for de uma área específica, como clima, finanças, saúde, etc. Isso vai ditar a fonte onde você vai buscar o seu conjunto de dados.
Agora vamos ao que interessa: a lista de datasets do Simple.
15 datasets para seu projeto de ML
Treinamento de chatbots
Um dataset conversacional reúne dados no formato pergunta e resposta. É ideal para o treinamento de chatbots que vão dar respostas automatizadas para a audiência.
- Question-Answer dataset: Este dataset oferece um conjunto de artigos da Wikipedia, perguntas e suas respectivas respostas geradas manualmente. Trata-se de um conjunto de dados reunidos entre 2008 e 2010 destinado ao uso em pesquisas acadêmicas.
- Language Data: O Language Data é um banco de dados administrado pelo Yahoo com informações geradas a partir de alguns serviços da empresa, como o Yahoo! Answer, que funciona como uma comunidade aberta para os usuários postarem perguntas e respostas.
- WikiQA: O corpus da WikiQA também é formado por um conjunto de perguntas e respostas. A fonte das perguntas é o Bing, enquanto as respostas se associam a uma página do Wikipedia com potencial para solucionar a questão inicial.
No total, são mais de 3 mil perguntas e um conjunto de 29.258 frases no dataset, sendo que cerca de 1,4 mil foram categorizadas como respostas para uma questão correspondente.
Dados de governos
Datasets gerados por governos trazem dados demográficos, que são ótimo insumos para projetos relacionados à compreensão de tendências sociais, à criação de políticas públicas e à melhoria da sociedade.
- Dados.gov.br: O Portal Brasileiro de Dados Abertos possui mais de 10 mil datasets alimentados por diferentes entidades brasileiras, como Banco Central, Ministério da Saúde, Previdência Social. Outras esferas, como governos estaduais e municipais, também têm seus próprios depósitos de dados, o que é um prato cheio para eventuais projetos e pesquisas com dados demográficos.
- Data.gov: Lançado em 2009, o Data.gov é a fonte norte-americana de dados. Seu catálogo é impressionante: são mais de 218 mil datasets que permitem segmentação por formato, tags, tipos e tópicos.
- EU Open Data Portal: O EU Open Data Portal dá acesso a dados abertos compartilhados por instituições da União Europeia. São dados que podem ser destinados a uso comercial e não-comercial. À disposição do usuário são mais de 15,5 mil datasets, cobrindo temas como saúde, energia, meio ambiente, cultura e educação.
Dados de saúde
- Global Health Observatory: Este conjunto de dados é uma iniciativa da Organização Mundial da Saúde (OMS). Ele oferece dados públicos relacionados a diferentes áreas da saúde, organizado por temas como sistemas sanitários, controle do uso de tabaco, maternidade, HIV/AIDS, etc. Há ainda a opção de consultar dados sobre o COVID-19.
- CORD-19: O CORD-19 é formado por um corpus de publicações acadêmicas sobre COVID-19 e outros artigos sobre o novo coronavírus. Trata-se de um conjunto de dados aberto com o intuito de gerar novos insights sobre COVID-19.
Dados de economia
Datasets relacionados ao meio financeiro costumam reunir uma enorme quantidade de informações, uma vez que é comum que estejam sendo reunidos há bastante tempo. São ideais para criação de predições econômicas ou para estabelecer tendências de investimentos.
- Fundo Monetário Internacional: O dataset do FMI possui uma série de indicadores econômicos e financeiros, estatísticas dos países membros, além de outros dados de empréstimos e taxas de câmbio.
- Banco Mundial: O repositório do Banco Mundial traz diferentes datasets com informações econômicas de diferentes países. São mais de 17 mil datasets divididos por continentes.
Reviews de produtos e serviços
Conjunto de dados formados por resenhas são extremamente úteis para projetos de análise de sentimentos, os quais exigem uma grande quantidade de dados especializados.
- Amazon Reviews: Este dataset contém cerca de 35 milhões de reviews da Amazon, abarcando um período de 18 anos de informações coletadas. É um conjunto de dados com conteúdo de produtos, usuários e avaliações.
- Yelp Reviews: O Yelp também oferece um dataset baseado em informações retiradas de seu serviço. São mais de 8 milhões de reviews, 1 milhão de dicas, além de quase 1,5 milhões de atributos relacionados a empresas, como horário de funcionamento e disponibilidade.
- IMDB Reviews: Este database contém um conjunto de mais de 25 mil resenhas de filmes para treinamento e outras 25 mil para testes retirados informalmente da página IMDB, especializada em avaliações de filmes. Também oferece dados não rotulados como um adicional.
Datasets para os primeiros passos em ML
- Wine Quality Dataset: Este conjunto de dados traz informações relacionadas a vinho, tanto tinto quanto verde, produzidos no norte de Portugal. O objetivo é definir a qualidade do vinho baseada em testes físico-químicos. Interessante para quem quer praticar a criação de um sistema de predição.
- Titanic Dataset: Este conjunto de dados traz dados de 887 passageiros reais do Titanic, com cada coluna definindo se sobreviveu, a idade, a classe do passageiro, o sexo e a taxa de embarque que foi paga. Este dataset fez parte de um desafio lançado pela plataforma Kaggle, cujo objetivo era criar um modelo que pudesse prever quais passageiros sobreviveram ao naufrágio do Titanic.
Quer mais datasets? Conheça essas plataformas
Se você quer ir além e encontrar seu próprio dataset, a melhor maneira é navegar pelos repositórios mais famosos do universo de Machine Learning: