-
Notifications
You must be signed in to change notification settings - Fork 13
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Data Lake Público - Parquet #316
Comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Boa noite.
Estou enfrentando dificuldades para baixar dados D-1 de todos os endpoints. Mesmo utilizando filtro de dados, meu IP é bloqueado depois de algumas requisições.
Baixar os arquivos inteiros diariamente e fazer um diff não me parece uma solução eficaz.
Sugiro a disponibilização dos dados (pode ser uma foto atualizada da base toda, assim como é feito na aba de arquivos), mas em formato parquet em cloud pública, permitindo fazer extrações de dados com PySpark, por exemplo.
Com Spark eu poderia filtrar os dados que gostaria de extrair mais facilmente.
Posso colaborar na criação do lake, se for possível.
Abraços!
The text was updated successfully, but these errors were encountered: