Sigue las siguientes instrucciones:
Una vez que hayas terminado de resolver el caso práctico, asegúrate de confirmar tus cambios, haz push a tu repositorio y ve a 4Geeks.com para subir el enlace del repositorio.
Este conjunto de datos proviene originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo es predecir en base a medidas diagnósticas si un paciente tiene o no diabetes.
El conjunto de datos se puede encontrar en esta carpeta de proyecto bajo el nombre diabetes.csv
. Puedes cargarlo en el código directamente desde el siguiente enlace:
1https://raw.githubusercontent.com/4GeeksAcademy/decision-tree-project-tutorial/main/diabetes.csv
O descargarlo y añadirlo a mano en tu repositorio. En este conjunto de datos encontrarás las siguientes variables:
Pregnancies
. Número de embarazos del paciente (numérico)Glucose
. Concentración de glucosa en plasma a las 2 horas de un test de tolerancia oral a la glucosa (numérico)BloodPressure
. Presión arterial diastólica (medida en mm Hg) (numérico)SkinThickness
. Grosor del pliegue cutáneo del tríceps (medida en mm) (numérico)Insulin
. Insulina sérica de 2 horas (medida en mu U/ml) (numérico)BMI
. Índice de masa corporal (numérico)DiabetesPedigreeFunction
. Función de pedigrí de diabetes (numérico)Age
. Edad del paciente (numérico)Outcome
. Variable de clase (0 o 1), siendo 0 negativo en diabetes y 1, positivo (numérico)Este segundo paso es vital para asegurar que nos quedamos con las variables estrictamente necesarias y eliminamos las que no son relevantes o no aportan información. Utiliza el Notebook de ejemplo que trabajamos y adáptalo a este caso de uso.
Asegúrate de dividir convenientemente el conjunto de datos en train
y test
como hemos visto en lecciones anteriores.
Comienza a resolver el problema implementando un árbol de decisión y analiza cuál de los dos tipos satisface tus necesidades. Entrénalo y analiza sus resultados. Prueba a modificar la función de cálculo de la pureza de los nodos y utiliza todas las disponibles. Descríbelas y analiza sus resultados graficándolos.
Después de entrenar el árbol con las distintas funciones de pureza, selecciona el mejor de ellos y optimiza sus hiperparámetros utilizando un grid search.
Almacena el modelo en la carpeta correspondiente.
Nota: También incorporamos muestras de solución en
./solution.ipynb
que te sugerimos honestamente que solo uses si estás atascado por más de 30 minutos o si ya has terminado y quieres compararlo con tu enfoque.