Sigue las siguientes instrucciones:
Una vez que hayas terminado de resolver el caso práctico, asegúrate de confirmar tus cambios, haz push a tu repositorio y ve a 4Geeks.com para subir el enlace del repositorio.
La importante compañía de seguros 4Geeks Insurance S.L. quiere calcular, en función de datos los fisiológicos de sus clientes, cuál va a ser la prima (coste) que debe asumir cada uno de ellos. Para ello, ha reunido a un equipo completo de médicos y en función de datos de otras compañías y un estudio particular han logrado reunir un conjunto de datos para entrenar un modelo predictivo.
El conjunto de datos se puede encontrar en esta carpeta de proyecto bajo el nombre medical_insurance_cost.csv
. Puedes cargarlo en el código directamente desde el siguente enlace:
1https://raw.githubusercontent.com/4GeeksAcademy/linear-regression-project-tutorial/main/medical_insurance_cost.csv
O descargarlo y añadirlo a mano en tu repositorio. En este conjunto de datos encontrarás las siguientes variables:
age
. Edad del beneficiario principal (numérico)sex
. Género del beneficiario principal (categórico)bmi
. índice de masa corporal (numérico)children
. Número de niños/dependientes cubiertos por un seguro médico (numérico)smoker
. ¿Es fumador? (categórico)region
. Área residencial del beneficiario en USA: noreste, sureste, suroeste, noroeste (categórico)charges
. Prima del seguro médico (numérico)Este segundo paso es vital para asegurar que nos quedamos con las variables estrictamente necesarias y eliminamos las que no son relevantes o no aportan información. Utiliza el Notebook de ejemplo que trabajamos y adáptalo a este caso de uso.
Asegúrate de dividir convenientemente el conjunto de datos en train
y test
como hemos visto en lecciones anteriores.
No es necesario que optimices los hiperparámetros. Comienza utilizando una definición por defecto y mejórala en el paso siguiente.
Después de entrenar el modelo, si los resultados no son satisfactorios, optimízalo si fuera posible.
Nota: También incorporamos muestras de solución en
./solution.ipynb
que te sugerimos honestamente que solo uses si estás atascado por más de 30 minutos o si ya has terminado y quieres compararlo con tu enfoque.