GPT-3 - Preguntas y Respuestas

Software 2.0 - Un pódcast de Andres Torrubia

Categorías:

A no ser que estés en una cueva sin internet te habrás enterado del revuelo que está generando GPT-3, un modelo generativo de texto, entrenado por la empresa OpenAI que supone (¿o no?) un paso hacia la inteligencia artificial general.

No puedo entrevistar al mismísmo GPT-3 (y no creas que me interesaría demasiado hacerlo) pero sí hablar sobre las preguntas que habéis hecho por twitter:

- ¡hazle una entrevista al modelo!

- Comparativa con otras tecnologías de los últimos años en grado de posible impacto (similar a BitTorrent? ImageNet neural networks? Bitcoin? BERT?)

- Limitaciones de la tecnología y motivos de que sea un api privada

- Aplicaciones reales en empresas y startups

- Y como empezar a utilizarlo ya, si es que se puede

- Estaría genial una explicación pa cazurros como yo de las tripas del GPT-3 ¿un Transformer vitaminado? ¿Qué lo hace especial?¿Sólo el tamaño?

- No te da la sensación de que se ha roto otra barrera, de que la IA ha superado otro hito? La gente habla de GPT-3 en el tono en el que se hablaba antaño con el ajedrez o con AlphaGo ("vale, ganará al ajedrez pero nunca podrá...." y esos "nunca podrá" van cayendo) ¿hay miedo?

- Cual es el siguiente paso para GPT-4??Más cómputo??Mas parámetros???Más datos?? Dónde está el límite???

- Consciencia. ¿Es GPT-3 consciente de alguna forma? Tengo la sensación de que estamos cerca de alguna forma de consciencia

- Cuanta energia fue necesario para entrenarlo?

- ¿Vamos a tener que ir buscando trabajo los programadores a medio plazo?

- Si se puede dejar desatendido (spoiler:no)

- Ya sabemos que más datos y más parámetros mejoran el modelo, pero ¿hasta qué punto sigue siendo interesante entrenar estos modelos monstruosos que solo pueden poner en producción 4 empresas?

- ¿Estado para otros idiomas distintos al Inglés?

- Su aplicación para generación de imágenes. ¿Es posible usarlo para eso?

- Sesgos de entrenamiento

- ¿Se puede hacer fine-tuning no para tareas sino para idiomas? Aprovechar de alguna forma lo aprendido en inglés por el modelo para no tener que entrenar desde 0 un nuevo modelo en sueco, por ejemplo.

- La cantidad de recursos que hace falta para entrenarla y si vamos camino de que el deep learning deje de ser "abierto".

- 175B params es a ojo de buen cubero es 1Tb de memoria y no se si podría correr en CPU

* cómo crees que lo han puesto en producción?
* crees que veremos una versión mejorada que funcione en máquinas normales (1/100x)
* que crees que se necesita para entrenar algo así?

- ¿Se podrá poner el modelo estándar de partículas en términos que el embending permita transferirlo al GPT-3 ? Y así saber si el campo de Higgs es metaestable ... entre otras cosas.