#70 - NotebookLM, Textless NLP, Foundation Models for Robotter, Tencent LLM

Verbos: AI og Softwareudvikling - Un pódcast de Kasper Junge - Jueves

Categorías:

I denne episode af Verbos podcast diskuterer værterne Kasper Junge og Jonas Høgh Kyhse-Andersen de seneste fremskridt inden for AI, herunder Tencent's nye LLM, Hunyan MoE A52B, og den innovative startup Phi Zero, der fokuserer på at udvikle fysisk intelligens. De udforsker også emner som generelle foundation modeller i robotics og balancen mellem specialisering og generalisering i AI-forskning. I denne samtale diskuterer værterne Jonas Høgh Kyhse-Andersen og Kasper Junge emner relateret til robotteknologi, sprogmodeller og den nyeste udvikling inden for audio generation. De reflekterer over, hvordan tilgængeligheden af software har fremmet innovation og hvordan nye værktøjer som Notebook LM kan revolutionere måden, vi interagerer med information på. Samtalen dykker også ned i de teknologiske udfordringer ved at generere naturlig lyd og opretholde koherens i audio-modeller. I denne episode diskuterer værterne Jonas Høgh Kyhse-Andersen og Kasper Junge emner relateret til stemmemodellering, akustik og AI-integration. De dykker ned i, hvordan akustiske og semantiske tokens bruges i AI-modeller, og hvordan disse teknologier kan anvendes i praktiske applikationer som Integuru, et framework til automatisering af API-interaktioner. Samtalen udforsker også, hvordan LLM'er kan forbedres ved at strukturere information og dokumentation. Chapters 00:00 Introduktion til AI og Tencent 04:57 Tencent's Hunyan MoE A52B Model 10:05 Fysisk Intelligens og Phi Zero 14:53 Generelle Foundation Modeller i Robotics 20:01 Specialisering vs. Generalisering i AI 25:57 Generering af podcasts fra dokumenter 32:07 Teknologier bag audio generation 40:11 Løsninger til langvarig koherens i lyd 51:58 Ugens Repo: Integuru og AI-Integration Links https://github.com/Tencent/Tencent-Hunyuan-Large https://www.physicalintelligence.company/blog/pi0?blog https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/ https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/ AudioLM: https://arxiv.org/abs/2209.03143 W2v-BERT: https://arxiv.org/abs/2108.06209 https://github.com/Integuru-AI/Integuru

Visit the podcast's native language site