Na nossa jornada nesse mundo maravilhoso dos dados nos encontramos com algumas dúvidas, uma delas é “Qual biblioteca aprender primeiro”, sendo bem sincero. Existem várias bibliotecas, essas são as que em particularmente eu utilizo mais no meu dia a dia e que acabam solucionando a maioria dos problemas dentro na nossa área, principalmente a análise e extração de dados.
Esse post visa trazer um pouco sobre as bibliotecas.
NumPy — (Numerical Python) Biblioteca de computação numérica para Python. É usado para realizar operações matemáticas complexas em arrays multidimensionais.
Documentação do Numpy: https://numpy.org/doc/stable/
O Numpy fornece um objeto de matriz multidimensional, vários objetos derivados (como matrizes e matrizes mascaradas) e uma variedade de rotinas para operações rápidas em matrizes, incluindo matemática, lógica, manipulação de forma, classificação, seleção, E/S , transformadas discretas de Fourier, álgebra linear básica, operações estatísticas básicas, simulação aleatória e muito mais.
Pandas — Acredito que seja a uma das principais e mais famosa biblioteca utilizada para análise de dados. O pandas é usado para manipulação e análise de dados, tendo vários métodos para auxiliar-nos nas diversas atividades, junto ao numpy, é um dos combos principais para o seu dia a dia.
Documentação do pandas: https://pandas.pydata.org/docs/
Statsmodels — Biblioteca para modelagem estatística em Python. É usado para realizar análises estatísticas sofisticadas, incluindo regressão linear e análise de séries temporais. (Sério, tem tudo na área estatística)
Ela fornece classes e funções para a estimativa de muitos modelos estatísticos diferentes, bem como para a realização de testes estatísticos e exploração de dados estatísticos.
Uma extensa lista de estatísticas de resultados está disponível para cada estimador. Os resultados são testados em relação aos pacotes estatísticos existentes para garantir que estejam corretos.
O pacote é lançado sob a licença Modified BSD (3 cláusulas) de código aberto. A documentação online está hospedada em statsmodels.org.
BeautifulSoup — Biblioteca para extrair dados de páginas da web em Python. É usado para extrair informações de páginas da web, como preços de produtos ou dados de mídia social. (Diz a lenda que dá pra extrair até a alma do desenvolvedor do site).
Beautiful Soup é um pacote Python para analisar documentos HTML e XML. Ele cria uma árvore de análise para páginas seguidas que podem ser usadas para extrair dados de HTML, o que é útil para web scraping.
Ele acaba sendo uma ótima ferramenta e utilizada em conjunto com outras ferramentas de automação (eram pra ser só 5 libs, mas vai nomes a mais) como pywinauto, pyautogui ou selenium você conseguirá fazer verdadeiros robôs extratores de dados.
Documentação do BS4 aqui neste link: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Matplotlib — Biblioteca para criação de gráficos em Python. É usado para visualizar dados em vários formatos, incluindo gráficos de linha, gráficos de barras, gráficos de dispersão, gráficos de pizza entre outros.
Nele, conseguimos criar visualizações estáticas, animadas e interativas em Python.
Documentação do matplotlib: https://matplotlib.org/
Gostou do artigo? Compartilha nas redes com seus amigos!
Se conecte comigo nas redes:
Github: https://github.com/caioeserpa
Instagram: https://www.instagram.com/caionosdados/
Linkedin: https://www.linkedin.com/in/caioeserpa/
Foi usado como base de informação para o post as informações contidas nas documentações das bibliotecas.