Esta plantilla proporciona la estructura básica para proyectos de ciencia de datos en Python que yo utilizo. Está diseñada para facilitar la organización y la reproducción del trabajo, así como para integrar prácticas recomendadas en el desarrollo de proyectos de análisis de datos.
La estructura de archivos resultante de esta plantilla es la siguiente:
{{ cookiecutter.project_slug }} #Nombre del proyecto
├── .gitignore # Archivo que especifica los archivos y directorios a ignorar en el control de versiones Git.
├── README.md # Documentación principal del proyecto.
├── data
│ ├── processed # Directorio para datos procesados.
│ │ └── .gitkeep # Archivo vacío para mantener el directorio procesado en el control de versiones.
│ └── raw # Directorio para datos crudos/sin procesar.
│ └── .gitkeep # Archivo vacío para mantener el directorio crudo en el control de versiones.
├── environment.yml # Archivo de especificación del entorno Conda que lista las dependencias del proyecto.
└── notebooks # Directorio para Jupyter Notebooks.
└── .gitkeep # Archivo vacío para mantener el directorio de notebooks en el control de versiones.
La plantilla instala automáticamente algunas librerías comunes utilizadas en proyectos de ciencia de datos. Estas incluyen:
- Pandas: Para manipulación y análisis de datos.
- Scikit-learn: Para aprendizaje automático y modelado estadístico.
- Otras librerías comunes como NumPy, Matplotlib y Jupyter.
Esta plantilla proporciona una base sólida para comenzar mis proyectos de ciencia de datos, permitiéndome enfocarme en el análisis y la modelización de datos sin preocuparme por la organización del proyecto.