- Python
-
Dados extraidos nesse link
-
Dados de 01/2021 ate o mês 04/2024 - Atualizado dia 30/05/2024
- O Consumidor.gov.br é um serviço público que permite a interlocução direta entre consumidores e empresas para solução de conflitos de consumo pela internet. Consumidor.gov.br
Considerações:
- Após a união do arquivos CSVs, o DataFrame ficou com 4567162 registros e 19 colunas.
- Foi verificado que o DataFrame havia 2.85% de valores ausentes(Em 4 colunas do DataFrame).
Coluna | Valores Ausentes | % de Valores Ausentes |
---|---|---|
Nota do Consumidor | 2386319 | 52.25 |
Tempo Resposta | 83675 | 1.83 |
Sexo | 297 | 0.01 |
Avaliação Reclamação | 5 | 0.00 |
Etapas:
-
Imputação/Remoção dos valores ausentes
- Coluna 'Nota do Consumidor' -> Será imputado valores utilizando o método de preenchimento progressivo (forward fill) para os valores NaN.
- Coluna 'Tempo Resposta' -> será imputado o valor 0(Zero) para os valores NaN - Pois são reclamações que não foram respondidas.
- Coluna 'Sexo' -> será imputado o valor 'O'(Outros) para os valores NaN.
- Coluna 'Avaliação Reclamação' -> Os dados ausentes seram removidos.
-
linhas Duplicadas
- Foram eliminadas do Dataframe as linhas duplicadas(17174).
- Após as transformações realizadas o DataSet ficou com 4549960 registros e 19 colunas.
- As reclamações estão aumentando ou diminuindo
- Quais Segmentos de Mercado com menor indice(%) de respostas por reclamações.
- Coleta dos dados
- Limpeza e Transformação dos dados
- Deploy Streamlit