¿Cómo funciona Deepseek? Las bases de la IA explicadas | DevExpert 1x03

Podcast DevExpert - Un pódcast de Antonio Leiva - Jueves

Categorías:

⚠️ ¿Quieres que ninguna IA te quite el trabajo? Entonces necesitas ir más allá con tus conocimientos sobre desarrollo de software. 🎁 Te regalo esta masterclass de 15 minutos donde te cuento todos los detalles 👉 https://devexpert.io/masterclass-15?utm_source=yt&utm_medium=social&utm_campaign=103 --- En este episodio detallado y exhaustivo, profundizamos en la atmósfera actual que rodea a los modelos de lenguaje, centrándonos en el desarrollo chino Deepseek. Exploramos qué es un modelo de lenguaje, cómo estos modelos integran la censura, la arquitectura y el funcionamiento detrás de las redes neuronales, el concepto de modelos open-source y el proceso de fine-tuning. Además, discutimos las diferencias entre los modelos razonadores y los modelos de lenguaje tradicionales, la técnica de destilación de modelos, la ejecución de modelos de lenguaje de forma local y las complejidades del entrenamiento y la cuantización. Este episodio tiene como objetivo proporcionar a los oyentes una comprensión profunda y una perspectiva clara de los aspectos fundamentales y los avances recientes en el mundo de la IA y los modelos de lenguaje. 00:00 Introducción y Contexto del Debate 00:37 Modelos de Lenguaje y Censura 04:18 Funcionamiento Interno de los Modelos de Lenguaje 08:21 Entrenamiento y Parámetros de los Modelos 29:32 Fine-Tuning en Modelos de Lenguaje 40:19 Modelos Razonadores y su Evolución 44:50 Ejecución Local y Modelos Destilados 51:51 Conclusiones y Reflexiones Finales