Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Sigue las siguientes instrucciones:
Una vez que hayas terminado de resolver el caso práctico, asegúrate de confirmar tus cambios, haz push a tu repositorio y ve a 4Geeks.com para subir el enlace del repositorio.
Una empresa ha recolectado la información del alquiler de viviendas en Nueva York a través de la aplicación Airbnb durante el año 2019. Este conjunto de datos se utilizó para entrenar modelos de Machine Learning durante ese año, en una competición en abierto.
Ahora lo utilizaremos para llevar a cabo un estudio acerca de las variables que componen el dataset a fin de comprenderlo y obtener conclusiones sobre él.
Puedes descargar el conjunto de datos directamente desde Kaggle.com o en el siguiente enlace: https://raw.githubusercontent.com/4GeeksAcademy/data-preprocessing-project-tutorial/main/AB_NYC_2019.csv
. Almacena los datos en crudo en la carpeta ./data/raw
.
Este paso es vital para asegurar que nos quedamos con las variables estrictamente necesarias y eliminamos las que no son relevantes o no aportan información. Utiliza el Notebook de ejemplo que trabajamos y adáptalo a este caso de uso.
Asegúrate de dividir convenientemente el conjunto de datos en train
y test
como hemos visto en la lección.
Después del EDA puedes guardar los datos en la carpeta ./data/processed
. Asegúrate de agregar la carpeta de los datos en el .gitignore
. Los datos al igual que los modelos no se deben subir a git.
NOTA: Solución: https://github.com/4GeeksAcademy/data-preprocessing-project-tutorial/blob/main/solution.ipynb
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing
Dificultad
easy
Duración promedio
2 hrs
Tecnologías
Data Processing