The Learning Curve, parte 1: Por qué la enseñanza de nuevos lenguajes de IA comienza con datos

Learning-Curve-Part-1_AI_main1

A medida que Samsung continúa siendo pionera en experiencias móviles de Inteligencia Artificial de primera calidad, visitamos los centros de investigación de Samsung en todo el mundo para aprender cómo Galaxy AI está permitiendo que más usuarios maximicen su potencial. Ahora, la IA de Galaxy es compatible con 16 idiomas, permitiendo que más personas puedan expandir sus capacidades lingüísticas, incluso sin conexión, gracias a la traducción en el dispositivo en funciones como Traducción Simultánea, Intérprete, Asistente de Notas y Asistente de Navegación. ¿Pero en qué consiste el desarrollo del lenguaje de la IA? Esta serie examina los desafíos de trabajar con IA móvil y cómo los superamos. Para empezar, nos dirigimos a Indonesia para aprender dónde comienza uno a enseñar a la IA a hablar un nuevo idioma.

Learning-Curve-Part-1_AI_main2

Según el equipo del Samsung R&D Institute Indonesia (SRIN), el primer paso es establecer objetivos, “Una gran IA comienza con datos de buena calidad y relevantes. Cada idioma exige una manera diferente de procesar esto, por lo que nos sumergimos profundamente para comprender las necesidades lingüísticas y las condiciones únicas de nuestro país”, dice Junaidillah Fadlil, Head de IA en SRIN, cuyo equipo recientemente agregó soporte para Bahasa Indonesia (idioma indonesio) a Galaxy AI. “El desarrollo de idiomas locales debe estar liderado por insights y la ciencia, por lo que cada proceso para agregar idiomas a Galaxy AI comienza con nosotros planificando qué información necesitamos y podemos obtener legal y éticamente”.

Las características de Galaxy AI, como Traducción Instantánea, realizan tres procesos principales: reconocimiento automático de voz (ASR, su sigla en inglés), traducción automática neuronal (NMT, su sigla en inglés) y texto a voz (TTS, su sigla en inglés). Cada proceso necesita un conjunto distinto de información.

Learning-Curve-Part-1_AI_main3

ASR, por ejemplo, necesita grabaciones extensas de voz en numerosos entornos, cada una de ellas acompañada de una transcripción precisa del texto. Los diferentes niveles de ruido de fondo ayudan para tener en cuenta los diferentes entornos. “No basta con añadir ruidos a las grabaciones”, explica Muchlisin Adi Saputra, Head de ASR del equipo. “Además de los datos lingüísticos que obtuvimos de los socios autorizados de terceros, debemos salir a cafeterías o entornos de trabajo para grabar nuestras propias voces. Esto nos permite capturar de forma auténtica sonidos únicos de la vida real, como las voces de la gente o el ruido de los teclados”.

Learning-Curve-Part-1_AI_main4

También hay que tener en cuenta la naturaleza siempre cambiante de las lenguas. Saputra añade: “Tenemos que estar al día de la jerga más reciente y de cómo se utiliza, ¡y la mayoría de las veces la encontramos en las redes sociales!”.

A continuación, NMT requiere datos de entrenamiento de traducción. “Traducir el bahasa indonesio es todo un reto”, afirma Muhamad Faisal, líder del equipo de NMT. “Su uso extensivo de significados contextuales e implícitos se basa en señales sociales y situacionales, por lo que necesitamos numerosos textos traducidos a los que la IA pueda hacer referencia para nuevas palabras, palabras extranjeras, nombres propios y modismos, cualquier información que ayude a la IA a comprender el contexto y las reglas de comunicación”.

Learning-Curve-Part-1_AI_main5

Luego, TTS requiere grabaciones que abarquen una variedad de voces y tonos, con un contexto adicional sobre cómo suenan partes de palabras en diferentes circunstancias. “Buenas grabaciones de voz podrían hacer la mitad del trabajo y cubrir todos los fonemas requeridos (unidades de sonido en el habla) para el modelo de IA”, agrega Harits Abdurrohman, líder de TTS. “Si un actor de voz hizo un gran trabajo en la fase anterior, el enfoque se desplaza hacia el perfeccionamiento del modelo de IA para pronunciar claramente palabras específicas”.

Juntos somos más fuertes

Se necesitan diversos recursos para planificar tantos datos, y el SRIN trabajó en estrecha colaboración con expertos en lingüística. “Este desafío requiere creatividad, ingenio y experiencia tanto en Bahasa Indonesia como en aprendizaje automático”, reflexiona Fadlil. “La filosofía de colaboración abierta de Samsung jugó un papel importante en lograr que se hiciera el trabajo, al igual que nuestra escala de operaciones y nuestra historia en el desarrollo de IA”.

Trabajando con otros centros de investigación de Samsung en todo el mundo, el equipo del SRIN pudo adoptar rápidamente las mejores prácticas y superar las complejidades de establecer objetivos de datos. Además, la colaboración fue beneficiosa para avanzar no solo en tecnología, sino también en cultura. Cuando el equipo del SRIN se unió a sus contrapartes en Bangalore, India, observaron las costumbres locales de ayuno, creando conexiones más profundas y expandiendo su comprensión de diferentes culturas.

Learning-Curve-Part-1_AI_main6

Para el equipo, el proyecto de expansión del lenguaje de Galaxy AI adquirió un nuevo significado. “Estamos especialmente orgullosos de nuestros logros aquí, ya que este fue nuestro primer proyecto de IA, y no será el último mientras continuemos refinando nuestros modelos y mejorando la calidad de la entrega”, concluye Fadlil. “Esta expansión no solo refleja nuestros valores de apertura, sino que también respeta e incorpora nuestras identidades culturales a través del lenguaje”.

Learning-Curve-Part-1_AI_main7

En el próximo episodio de The Learning Curve, nos dirigiremos al R&D Institute Jordan para hablar con el equipo que dirigió el proyecto de idioma árabe de Galaxy AI. Conéctate para conocer las complejidades de crear y entrenar un modelo de IA para un idioma con diversos dialectos.

Learning-Curve-Part-1_AI_main8

Tecnología e InnovaciónGalaxy AIGalaxy AI ExperienceInteligencia Artificial