Google se une a esfuerzos de colaboración para crear modelos de lenguaje grandes localizados

concepto de mundo digital — EDUARD MUZHEVSKYI / BIBLIOTECA DE FOTOS DE CIENCIA/Getty Images

Google está uniendo esfuerzos de colaboración para construir modelos de lenguaje grandes (LLM) que se adaptan mejor a la población y la mezcla cultural del sudeste asiático.

Su brazo de investigación trabajará con AI Singapur para mejorar los conjuntos de datos utilizados para entrenar, ajustar y evaluar modelos de IA en idiomas específicos de la región. La iniciativa, denominada Proyecto Idiomas del Sudeste Asiático en One Network Data (SEALD), tiene como objetivo «mejorar la conciencia del contexto cultural» en los LLM creados para la región, dijo AI Singapur en un comunicado el lunes.

También: Cinco formas de utilizar la IA de forma responsable

La agencia gubernamental añadió que la colaboración se centrará primero en indonesio, tailandés, tamil, filipino y birmano, y que los dos socios desarrollarán modelos de translocalización y traducción de forma conjunta. También desarrollarán herramientas para ayudar a escalar las capacidades de translocalización y mejores prácticas para ajustar conjuntos de datos. Se publicarán guías de formación previa para los idiomas del sudeste asiático.

Todos los conjuntos de datos y resultados del Proyecto SEALD se publicarán en código abierto, añadió AI Singapore.

La iniciativa apoyará aún más los esfuerzos de capacitación para los modelos bajo LEÓN MARINO (Idiomas del sudeste asiático en una red), que la agencia gubernamental de Singapur lanzó el año pasado.

También: Los mejores chatbots con IA: ChatGPT y otras alternativas destacadas

La versión actual de SEA-LION, que consta de LLM de código abierto previamente capacitados para los matices sociales de la región, se ejecuta en dos modelos base: un modelo de tres mil millones de parámetros y un modelo de siete mil millones de parámetros. Sus datos de entrenamiento comprenden 981 mil millones de tokens de idiomas. AI Singapore define estos tokens como fragmentos de palabras creados a partir de la descomposición del texto durante la tokenización. Estos fragmentos incluyen 623 mil millones de tokens ingleses, 128 mil millones de tokens del sudeste asiático y 91 mil millones de tokens chinos.

El Proyecto SEALD está trabajando actualmente en un caso de uso mejorar las comunicaciones con los trabajadores migrantes en Singapur, quienes pueden conversar con mayor fluidez en varios idiomas regionales que en inglés. Los esfuerzos de recopilación de datos reflejarán rasgos lingüísticos únicos dentro de esta comunidad y proporcionarán la base para mejorar el compromiso entre el gobierno de Singapur y los empleadores.

Los conjuntos de datos y los resultados del Proyecto SEALD serán integrado con IA generativa aplicaciones desarrolladas por Google Cloud y el gobierno de Singapurbajo el esquema AI Trailblazers de este último, para apoyar el alcance comunitario.

Los socios del Proyecto SEALD también trabajarán con la industria, incluidos el mundo académico y el sector público, en todas funciones, como la recopilación de datos y los controles de calidad. Estos esfuerzos incluirán la colaboración con el mundo académico en diferentes países del Sudeste Asiático para Establecer metodologías de evaluación y benchmarking. aplicaciones de IA generativa en toda la región.

También: ¿Quieres trabajar en IA? Cómo dar un giro a tu carrera en 5 pasos

AI Singapore también planea hacer que los LLM de SEA-LION estén disponibles en Jardín modelo de Google Cloud en Vertex AI, brindando acceso a modelos de IA previamente verificados. Los LLM regionales se agregarán a abrazando la caraun repositorio de código abierto para herramientas de inteligencia artificial y modelos previamente entrenados centrado principalmente en capacidades de procesamiento del lenguaje natural.

AI Singapur también anunció el lunes que firmó memorandos de entendimiento y cartas de intención con varias organizaciones en Indonesia, Malasia y Vietnam para desarrollar conjuntos de datos y aplicaciones para LLM regionales.

Además, la agencia de Singapur dijo que está trabajando con socios en Indonesia, Tailandia y Filipinas para crear recursos sobre sintaxis y semántica de idiomas regionales. Entre ellos se incluyen el Instituto Vidyasirimedhi de Ciencia y Tecnología de Tailandia y el Laboratorio de Ciencias de la Computación Social Ateneo de Filipinas.

En 2022, Google Research anunció una asociación con el Instituto Indio de Ciencias para trabajar en Proyecto Vaanicuyo objetivo es recopilar datos de habla anónimos en 773 distritos y crear un LLM que represente a la diversa población del país.

También: ¿El ingeniero rápido está desplazando al científico de datos como el «trabajo más sexy del siglo XXI»?

La semana pasada, Laurence Liew, director de innovación de IA de AI Singapur pidió que los jugadores de IA generativa incorporen modelos de datos regionales y locales para garantizar que sus productos reflejen mejor una población global diversa. La integración de SEA-LION, por ejemplo, ayudará a que las herramientas de IA generativa generen respuestas más precisas, dijo Liew, señalando que el LLM regional generó una predicción más precisa en comparación con una plataforma pública global cuando se le preguntó sobre una reciente elección asiática.

Añadió que la mayoría herramientas públicas de IA generativa hoy en día no están centrados en Asia y podrían haber sesgo de datos inherente. Los LLM como SEA-LION son más «culturalmente sensibles», lo que, según él, garantizará que las respuestas generativas generadas por la IA reflejen mejor la mezcla social de la región.

Enlace fuente