Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Data Lake Público - Parquet #316

Open
vitorcarra opened this issue Nov 29, 2021 · 0 comments
Open

Data Lake Público - Parquet #316

vitorcarra opened this issue Nov 29, 2021 · 0 comments

Comments

@vitorcarra
Copy link

Boa noite.

Estou enfrentando dificuldades para baixar dados D-1 de todos os endpoints. Mesmo utilizando filtro de dados, meu IP é bloqueado depois de algumas requisições.

Baixar os arquivos inteiros diariamente e fazer um diff não me parece uma solução eficaz.

Sugiro a disponibilização dos dados (pode ser uma foto atualizada da base toda, assim como é feito na aba de arquivos), mas em formato parquet em cloud pública, permitindo fazer extrações de dados com PySpark, por exemplo.
Com Spark eu poderia filtrar os dados que gostaria de extrair mais facilmente.

Posso colaborar na criação do lake, se for possível.

Abraços!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant