Skip to content

Resolução da imersão dados 04 da Alura, com foco em predição de valores de Imóveis

Notifications You must be signed in to change notification settings

KaueAbbe/ImersaoDados

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

Bem vinda(o) ao Imersão Dados 04 - Alura😊

Imersão Dados 04

Como realizar predição de preços de imóveis utilizados vários bancos de dados

🪧 Vitrine.Dev Minha Vitrine
✨ Nome Imersão Dados 04
🏷️ Tecnologias Python, Jupyter Notebook, Geopandas
🚀 URL https://github.com/KaueAbbe/ImersaoDados
🔥 Desafio https://www.alura.com.br/imersao-dados-4

Detalhes do projeto

Badge em Desenvolvimento

Objetivo da imersão: Predição de Preços de Imóveis em São Paulo🤔

A Imersão Dados 04 da Alura é um evento de desafio em que os participantes passam uma semana vendo aulas e desenvolvendo um projeto. Os desafiantes dão a aula e passam desafios para os participantes mergulharem no mundo da ciência de dados.

Baseado nos dados de preços de imóveis em São Paulo o objetivo é predizer os valores dos imóveis em São Paulo. Para isto quero analisar o dataset e cruzar meu dataset com dados do IBGE para conseguir incrementar o dataset e conseguir fazer uma predição melhor.

O objetivo do modelo é conseguir prever qual seria os valores de um imóvel com determinadas características, como quantidade de banheiro, vaga, localização, tamanho. O cruzamento com dados do IBGE vai fornecer valores de rendas e afins relacionados a localização dos imóveis.

Quais bibliotecas encontrarei nos notebooks?

1. Para ler dados: Pandas 🐼| 2. Para ler dados de Geoprocessamento: GeoPandas | 3. Para matemática: Numpy e StatsModels | 4. Para visualização de dados: Seaborn |

Detalhes do Notebook:

  • Leitura e tratamento de Dados
  • Visualização de Dados
  • Realização de Desafios dos Instrutores
  • Cruzamento com dados do IBGE
  • Tratamento geográfico do Dataset
  • Criação de Modelo Preditivo

Desenvolvido

Foi lido o dataset do Kaggle de imóveis de São Paulo e realizou tratamento para alterar tipo de valores que estavam com tipo palavra e foi transformada em número para realizar análises, que foram feitas posteriormente com utilização de gráficos do Pandas e do Seaborn.

Posteriormente foi lida dados do IBGE e feito cruzasamento destes dados com o dataset original. Para realizar o cruzamento foi utilizado biblioteca geopandas, shapely e folium para realizar tratamento geográfico por setor censitário definido pelo IBGE. Utilizei conceito de polígonos e área para determinar qual o setor censitário pertence o endereço no dataset original. Com os dados do IBGE e do dataset original foi realizado o mapa da cidade de São Paulo analisando a média da renda por setor censitário.

Por fim foi criado dois modelos de Machine Learning. Um baseado em regressão linear e outro basedo em regressão polinomial. A métrica utilizada para avaliar o modelo foi avaliar o valor do resultado da predição teste e predição treino e obter o valor de R². O melhor modelo foi o basedo em regressão linear.

Em desenvolvimento:

  1. Atualizar a análise exploratória dos dados e implementar a mudança no modelo
  2. Correção o erro de não mostrar o mapa de São Paulo separado por renda dos setores censitários.

Links e Referências:

  1. Medium - Dados Georreferenciados
  2. Exemplos de Correlação

Autor

🚀

Feito com 💙 por Kaue Hermann Abbehausen 👋🏽
Formado em Física na Universidade Federal de Uberlândia e estudante de Data Science

Entre em contato por

About

Resolução da imersão dados 04 da Alura, com foco em predição de valores de Imóveis

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published