Skip to content

Latest commit

 

History

History
39 lines (20 loc) · 1.82 KB

File metadata and controls

39 lines (20 loc) · 1.82 KB

📄 Extração de dados do site Fundamentus

💻 O que é o Fundamentus?

É um site que disponibiliza diversas informações sobre empresas brasileiras que são listadas na B3. O Site possui um grande diferencial, visto que possui um banco de dados completo e sempre atualizado, apresentando de maneira gratuita informações relevantes para tomada de decisão.

⚠️ O problema

O problema, é que o site não possui as informações de maneira unificada, ou seja, para conseguir as informações, torna-se necessário realizar diversas buscas, isto é, caso você deseje informações sobre empresas, seria necessário realizar dez buscas no site, um para cada empresa. Desse modo, a análise se torna limitada.

A oportunidade encontrada é reunir as informações de todas as empresas em um lugar só. Para efetuar uma análise mais detalhista, bem como identificar possíveis oportunidades de investimento.

💹 Objetivo

O Objetivo deste código é demonstrar a extração de dados do site Fundamentus através da biblioteca Fundamentus e após isso, possibilitar que os dados extraídos possam ser analisados inicialmente via SQL ou qualquer outra ferramenta analítica.

🛠️ utilizadas

Para implementação do código, foi utilizada apenas a plataforma Databricks juntamente com a linguagem Spark.

✍️ Implementações

As implementações realizadas foram:

  1. Extração dos dados e armazenamento em um dataframe convencional
  2. Conversão do dataframe tradicional para spark dataframe
  3. Transformações aplicadas no spark dataframe para melhoria dos dados obtidos
  4. Criação de view temporária para manipulação via SQL
  5. Demonstração da manipulação via SQL

📑 Links e Referências