Episodio 143 - Proyectos IA
Ingenios@s de Sistemas - Un pódcast de Charlie Alonso

Categorías:
Hoy es Miércoles 02 de Noviembre de 2022 y hoy hablaremos de proyectos. AlphaFold2 Replication AlphaFold2 es un algoritmo de aprendizaje profundo que aprovecha técnicas originadas en el procesamiento del lenguaje natural para hacer predicciones de estructuras de proteínas. Fue anunciado por DeepMind en 2020 en la competición CASP 14, donde dejó boquiabierta a la competencia con su rendimiento. CLASP Recientemente los modelos contrastivos multimodales han tenido una explosión de potencia y popularidad, por ejemplo, ConVIRT, CLIP y ALIGN. En este proyecto aplicamos una configuración similar, pero utilizamos secuencias de aminoácidos y su descripción lingüística como datos de entrenamiento procedentes del Universal Protein Resource (UniProt), una base de datos de proteínas anotada. El objetivo es crear un modelo que pueda ser utilizado como otros modelos tipo CLIP pero para secuencias de aminoácidos y texto. OpenWebText2 WebText es un conjunto de datos de Internet creado a partir de URL extraídas de envíos de Reddit con una puntuación mínima de 3 como indicador de calidad. Se recopiló para entrenar el GPT-2 original y nunca se hizo público, pero los investigadores reprodujeron de forma independiente el proceso y publicaron el conjunto de datos resultante, llamado OpenWebTextCorpus (OWT) The Pile The Pile es un conjunto de datos de modelado lingüístico de código abierto, grande y diverso, que consta de muchos conjuntos de datos más pequeños combinados entre sí. El objetivo es obtener texto de tantas modalidades como sea posible para garantizar que los modelos entrenados con The Pile tengan una capacidad de generalización mucho más amplia. PT-NeoX GPT-NeoX es una implementación de modelos lingüísticos autorregresivos tipo GPT-3 en paralelo para GPUs distribuidas, basada en Megatron-LM y DeepSpeed. GPT-NeoX se utilizó para entrenar GPT-NeoX-20B, un modelo de lenguaje de 20 mil millones de parámetros, en colaboración con CoreWeave. Anunciado el 2 de febrero de 2022 y publicado en The Eye junto con un informe técnico preliminar una semana después, se convirtió en el mayor modelo lingüístico autorregresivo denso jamás puesto a disposición del público en el momento de su publicación. LAION DATASETS LAION-400M, LAION5B, Laion-coco, LAION5B High-Res Un subconjunto de la base de datos LAION5B, con imágenes de alta resolución superiores a 1024x1024, que contiene 170 millones de muestras. LAION-3D Un esfuerzo por crear un conjunto de datos a gran escala compuesto por modelos 3D y pares de descriptores. DreamStudio una de las implementaciones comerciales de Stable Diffusion, la implementación de Stabiliti.AI para ser exactos, y este no es gratis por que pone infraestructura GPU OPENBIOML una nueva comunidad enfocada en el desarrollo abierto de inteligencia artificial para biología Harmonai Una organización impulsada por la comunidad que libera herramientas de audio generativo de código abierto para que la producción musical sea más accesible y divertida para todos CarperAI CARP Los relatos escritos acompañados de críticas son una buena fuente de datos para el aprendizaje de preferencias. Las críticas pueden ser una medida muy rica en información para medir las preferencias sobre el contenido de las historias. CARP-CoOp La dirección en la que querían avanzar después de CARP era utilizar sus puntuaciones de similitud para guiar la generación de textos con preferencias. CHEESE Recoger las preferencias humanas sobre los contenidos generados por máquinas a escala es difícil. TRLX Normalmente, cuando se quiere adaptar un modelo generativo preentrenado (es decir, un modelo lingüístico que produce contenido textual), se necesita un conjunto de datos amplio y conciso para ponerlo a punto.