15. Etapas de un proyecto de Machine Learning: El modelo

Big Data e Inteligencia Artificial - Un p贸dcast de Marta Arroyo - Miercoles

Categor铆as:

馃摑 Pod茅is encontrar las notas del programa completas en https://datos.ninja/podcast/15-etapas-proyecto-machine-learning-parte-3/ En el episodio 13 hablamos del planteamiento del problema de Machine Learning. En el episodio 14 vimos como construir un dataset de calidad. Y hoy, vemos la fase de dise帽o del modelo de Machine Learning, aunque damos por hecho que un ingeniero de datos se ha encargado de seleccionar el almacenamiento adecuado para nuestros datos y los tenemos listos para usar. Si quer茅is saber m谩s sobre el ciclo de vida de un dato desde su ingesta hasta que est谩 listo para ser utilizado, pod茅is ver este hilo de twitter al que hago referencia en el episodio de hoy. Antes de entrenar el modelo hay que preparar los datos. Transformaciones obligatorias de los datos para que sean compatibles con el modelo. Transformaciones opcionales, aunque muy convenientes, que ayudan a que el modelo converja m谩s r谩pido como la normalizaci贸n de los datos. Manejo de los valores faltantes, que son aquellos registros de datos que vienen vac铆os por alguna raz贸n. Lo primero que haremos es separar unos cuantos datos que utilizaremos m谩s adelante como conjunto de datos de validaci贸n. Estos datos no los podremos usar durante el entrenamiento del modelo. Despu茅s elegiremos la versi贸n m谩s sencilla de un modelo de Machine Learning que se ajuste a nuestro problema. A帽adiremos complejidad al modelo y ajustaremos sus par谩metros lo mejor que podamos mediante una funci贸n de coste, que cuantifica el error de nuestras predicciones, y un algoritmo de optimizaci贸n. Pero ojo que si los resultados son muy buenos en el dataset de entrenamiento, tal vez estemos sobreajustando. Para comprobarlo tenemos el conjunto de validaci贸n. Usaremos el dataset de validaci贸n para ver si el rendimiento del modelo baja mucho con datos que no ha visto durante el entrenamiento. Si lo hace, estamos sobreajustando y habr谩 que aplicar t茅cnicas de regularizaci贸n. El mejor modelo es el que encuentra el equilibrio entre ajustar los datos de entrenamiento y ser capaz de generalizar y dar buenos resultados con datos que no ha visto antes. Espero que os guste el episodio 馃槉 Si es as铆, no olvid茅is dejar un 芦Me gusta禄 y alg煤n comentario al episodio en Ivoox o una valoraci贸n de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuch茅is el podcast. Recordad que si ten茅is cualquier duda o pregunta pod茅is contactar conmigo a trav茅s del formulario de contacto o podemos seguir la conversaci贸n en Twitter. Muchas gracias por estar ah铆 y os espero en el pr贸ximo episodio de Un Podcast Ninja sobre Big Data.