¿Cómo debe ser un buen corpus? | InnovaDATA #12
InnovaDATA - Un pódcast de IIConocimiento
Categorías:
Dedicamos este podcast de InnovaDATA a la base de los modelos de lenguaje: los corpus o conjuntos de textos con los que se entrenan. Nos preguntamos cómo debe ser un buen corpus, qué tipo de textos se incluyen y la calidad y la cantidad exigidas. Esta vez, contamos con la experiencia desarrollando corpus en español y en gallego de Marta Guerrero, directora técnica del área de Business & Language Analytics del IIC, y de Pablo Gamallo, Catedrático de Lingüística e investigador del Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS). Además, nos dan su visión sobre cómo de representadas están nuestras lenguas en el mundo de la inteligencia artificial.