Como eu resumo em uma frase?
Diria que é a mina de ouro da ciência de dados (literalmente).
Datasets são conjuntos de dados ou arquivos que contém possuem milhares de dados sobre um determinado assunto, seja eles no formato imagens, texto, áudio, Excel e etc, e servem como matéria prima para o processo de análise de dados.
Tendo conhecimento do que são datasets, nós conseguimos achá-los de diversas maneiras, segue uma lista de sites que possuem datasets:
Uma fonte de dados por vezes esquecida, mas muito útil (e nacional) é o Portal Brasileiro de Dados Abertos (dados.gov.br). Nele podemos encontrar base de dados sobre o governo em suas diversas áreas e estados, vale a pena dar uma conferida. Além disso, o Portal Brasileiro de Dados Abertos conta com dicionários nos datasets e uma pré-visualização para que possamos ter certeza do conjunto de dados que iremos trabalhar.
Clica no emoji para dar uma conferida no site: 👾
O FiveThirtyEight é voltado para esportes e notícias, o próprio site disponibiliza datasets para estudarmos e analisarmos, um fato interessante, é que os assuntos são diversos, desde piratas até a NASA.
Clica no emoji para dar uma conferida no site: 👾
Outro lugar interessante para encontrar datasets é no site do Portal da Transparência. Lá, você vai encontrar com detalhamento informações do nosso Brasilzão em diversos setores.
Clica no emoji para dar uma conferida no site: 👾
Esse é um pouco inusitado para alguns, mas o Wikipedia também disponibiliza datasets com todas as informações neles já contidas na biblioteca livre.
Clica no emoji para dar uma conferida no site: 👾
Um site que pode ser pouco conhecido, mas possui bastante repositórios e datasets para nossos estudos é o UCI, recomendo fortemente conhecê-lo, possuindo também imagens como repositórios em seus datasets.
Clica no emoji para dar uma conferida no site: 👾
Galera! Olha que incrível, quem tinha dificuldade de encontrar datasets de imagens, agora é a hora perfeita para ir conhecer o IMAGENET e ir treinar visão computacional e deep learning.
Um repositório fantástico de imagens, nele você consegue encontrar datasets de imagens sobre diversos assuntos.
Clica no emoji para dar uma conferida no site: 👾
Gente, esse é o GOOGLE, nosso queridinho. É um projeto Open Source de banco de imagens. Vale a pena dar uma conferida!
Clica no emoji para dar uma conferida no site: 👾
Mais um vindo do GOOGLE, dessa vez é com áudios! Sério, tem desculpa agora para não aprender Data Science? Temos datasets de tudo, meus queridos!
Clica no emoji para dar uma conferida no site: 👾
Em especial, temos esse dataset incrível com músicas que não possuem Royalty, nele podemos procurar músicas gratuitas para usarmos e estudarmos.
Clica no emoji para dar uma conferida no site: 👾
Então é isso, gente! O intuito do post é apresentar para vocês um poucos dos diversos datasets existentes nesse nosso mundão!
Clica no emoji ao lado para conhecer um pouco mais sobre mim: 👨🏽💻
Entre em contato comigo
Github: https://github.com/caioeserpa
Instagram: https://www.instagram.com/caionosdados/
Linkedin: https://www.linkedin.com/in/caioeserpa/