GPT-3 - Preguntas y Respuestas
Software 2.0 - Un pódcast de Andres Torrubia
Categorías:
A no ser que estés en una cueva sin internet te habrás enterado del revuelo que está generando GPT-3, un modelo generativo de texto, entrenado por la empresa OpenAI que supone (¿o no?) un paso hacia la inteligencia artificial general. No puedo entrevistar al mismísmo GPT-3 (y no creas que me interesaría demasiado hacerlo) pero sí hablar sobre las preguntas que habéis hecho por twitter: - ¡hazle una entrevista al modelo! - Comparativa con otras tecnologías de los últimos años en grado de posible impacto (similar a BitTorrent? ImageNet neural networks? Bitcoin? BERT?) - Limitaciones de la tecnología y motivos de que sea un api privada - Aplicaciones reales en empresas y startups - Y como empezar a utilizarlo ya, si es que se puede - Estaría genial una explicación pa cazurros como yo de las tripas del GPT-3 ¿un Transformer vitaminado? ¿Qué lo hace especial?¿Sólo el tamaño? - No te da la sensación de que se ha roto otra barrera, de que la IA ha superado otro hito? La gente habla de GPT-3 en el tono en el que se hablaba antaño con el ajedrez o con AlphaGo ("vale, ganará al ajedrez pero nunca podrá...." y esos "nunca podrá" van cayendo) ¿hay miedo? - Cual es el siguiente paso para GPT-4??Más cómputo??Mas parámetros???Más datos?? Dónde está el límite??? - Consciencia. ¿Es GPT-3 consciente de alguna forma? Tengo la sensación de que estamos cerca de alguna forma de consciencia - Cuanta energia fue necesario para entrenarlo? - ¿Vamos a tener que ir buscando trabajo los programadores a medio plazo? - Si se puede dejar desatendido (spoiler:no) - Ya sabemos que más datos y más parámetros mejoran el modelo, pero ¿hasta qué punto sigue siendo interesante entrenar estos modelos monstruosos que solo pueden poner en producción 4 empresas? - ¿Estado para otros idiomas distintos al Inglés? - Su aplicación para generación de imágenes. ¿Es posible usarlo para eso? - Sesgos de entrenamiento - ¿Se puede hacer fine-tuning no para tareas sino para idiomas? Aprovechar de alguna forma lo aprendido en inglés por el modelo para no tener que entrenar desde 0 un nuevo modelo en sueco, por ejemplo. - La cantidad de recursos que hace falta para entrenarla y si vamos camino de que el deep learning deje de ser "abierto". - 175B params es a ojo de buen cubero es 1Tb de memoria y no se si podría correr en CPU * cómo crees que lo han puesto en producción? * crees que veremos una versión mejorada que funcione en máquinas normales (1/100x) * que crees que se necesita para entrenar algo así? - ¿Se podrá poner el modelo estándar de partículas en términos que el embending permita transferirlo al GPT-3 ? Y así saber si el campo de Higgs es metaestable ... entre otras cosas.