
No es fácil abrir modelos de lenguajes grandes (LLM) de código abierto. Sólo pregúntale al Iniciativa de código abierto (OSI), que ha estado trabajando en un sistema compatible con IA definición de código abierto durante casi dos años. Algunas empresas (Meta, por ejemplo) afirmar tener código abierto sus LLM. (No lo han hecho). Pero, ahora IBM ha seguido adelante y lo ha hecho.
IBM gestionó el código abierto de código de granito mediante el uso de datos de preentrenamiento de conjuntos de datos disponibles públicamente, como GitHub Code Clean, datos de Starcoder, repositorios de códigos públicos y problemas de GitHub. En resumen, IBM ha hecho todo lo posible para evitar problemas legales o de derechos de autor. Los modelos Granite Code Base se entrenan en tokens de datos de código de 3 a 4 terabytes y conjuntos de datos relacionados con códigos de lenguaje natural.
También: Por qué los modelos de IA generativa de código abierto todavía están un paso por detrás de GPT-4
Todos estos modelos tienen licencia bajo la licencia apache 2.0 para investigación y uso comercial. Es esa última palabra, comercial, la que impidió que los otros LLM importantes fueran de código abierto. Nadie más quería compartir sus beneficios de LLM.
Pero, como dijo el científico jefe de IBM Research, Ruchir Puri, «Estamos transformando el panorama de la IA generativa para el software al lanzar los LLM de código más rentables y de mayor rendimiento, lo que permite a la comunidad abierta innovar sin restricciones».
Quizás sin restricciones, pero no sin aplicaciones específicas en mente.
Los modelos Granite, como dijo el año pasado la directora general del ecosistema de IBM, Kate Woolley, no tratan de «tratar de ser todo para todos». No se trata de escribir poemas sobre tu perro. Se trata de modelos seleccionados que se pueden ajustar y que están muy dirigidos a los casos de uso empresarial que queremos que utilice la empresa. Específicamente, son para programación.»
Estos modelos exclusivamente decodificadores, entrenados con código de 116 lenguajes de programación, varían entre 3 y 34 mil millones de parámetros. Admiten muchos usos de los desarrolladores, desde la modernización de aplicaciones complejas hasta tareas con memoria limitada en el dispositivo.
IBM ya ha utilizado estos LLM internamente en Asistente de código IBM Watsonx (WCA) productos, tales como WCA para la velocidad de la luz ansible para la automatización de TI y WCA para IBM Z para modernizar aplicaciones COBOL. No todo el mundo puede permitirse Watsonx, pero ahora cualquiera puede trabajar con Granite LLM utilizando IBM y el InstructLab de Red Hat.
También: Los mejores chatbots con IA: ChatGPT y alternativas
Como dijo el vicepresidente senior y director de producto de Red Hat, Ashesh Badani, InstructLab «reducirá muchas de las barreras que enfrenta GenAI en la nube híbrida, desde las habilidades limitadas en ciencia de datos hasta los simples recursos necesarios». El objetivo es reducir el nivel de entrada para los desarrolladores que quieran utilizar LLM.
¿Qué tan bajo? Como dijo Matt Hicks en el Cumbre de sombrero rojo«Las capacidades que, hace apenas un año, estaban acopladas a hardware bastante exótico y de alta gama ahora pueden ejecutarse en una computadora portátil. Las técnicas de capacitación que alguna vez costaron cientos de millones de dólares ahora se están replicando por unos pocos miles».
Por ejemplo, además de InstructLab, puede utilizar Ollma para ejecutar LLM localmente. Como explica Bala Priya C en pepitas de kd«Con Ollama, todo lo que necesita para ejecutar un LLM (pesos de modelo y toda la configuración) está empaquetado en un único Modelfile. Piense en Docker para LLM.» Los modelos están disponibles en plataformas como abrazando la cara, GitHub, Watsonx.aiy Red Hat Enterprise Linux (RHEL) IA.
IBM anticipa que los programadores, además de escribir código con los LLM de Granite, ahorrarán tiempo y energía al utilizar estos LLM para crear pruebas y encontrar y corregir errores. «Muchas de las tareas cotidianas pero esenciales que forman parte del día a día de un desarrollador, desde generar pruebas unitarias hasta escribir documentación o ejecutar pruebas de vulnerabilidad, podrían automatizarse con estos modelos.
También: AI21 y Databricks muestran que el código abierto puede reducir radicalmente la IA
Además de ayudar a los desarrolladores, IBM ve beneficios comerciales en los modelos Granite porque, a diferencia de muchos otros, su licencia es clara, al igual que cómo se han entrenado los modelos. Además, los datos se han limpiado y filtrado en busca de odio, abuso y lenguaje profano.
Entonces, si su empresa ha dudado en explorar el uso de IA para crear programas por razones legales, IBM acaba de brindarle las herramientas de código abierto que necesitará para mejorar su trabajo de desarrollo de software. Pruébalos. Algunos de ustedes construirán grandes cosas con estos bloques de granito.