Comprender el tiempo de ejecución del copiloto de Windows

[ad_1]

No es difícil detectar lo que los impulsa. Construir 2024. Desde el lanzamiento previo al evento de las PC Copilot+ hasta las dos grandes conferencias magistrales de Nadella Satya y Scott Guthrie, todo era IA. Incluso la gira anual del CTO de Azure, Mark Russinovich, sobre las innovaciones de hardware de Azure se centró en el soporte para la IA.

Durante los primeros años después de que Nadella se convirtiera en CEO, habló muchas veces sobre lo que llamó “la nube inteligente y el borde inteligente”, mezclando el poder de grandes datos, aprendizaje automáticoy procesamiento basado en bordes. Era una visión industrial del mundo nativo de la nube, pero marcó la pauta para el enfoque de Microsoft hacia la IA, utilizando las capacidades de supercomputación de Azure para albergar entrenamiento e inferencia para nuestros modelos de IA en la nube, sin importar cuán grandes o pequeños sean. los modelos son.

Llevando la IA al límite

Con las demandas de energía y refrigeración de la IA centralizada, no sorprende que Microsoft anuncios clave en Build se centraron en trasladar gran parte de su funcionalidad de IA de punto final de Azure a las propias PC de los usuarios, aprovechando los aceleradores de IA locales para ejecutar inferencias en una selección de diferentes algoritmos. En lugar de ejecutar Copilots en Azure, utilizaría unidades de procesamiento neuronal, o NPU, que forman parte de la próxima generación de silicio de escritorio de Arm, Intel y AMD.

La aceleración de hardware es un enfoque probado que ha funcionado una y otra vez. A principios de la década de 1990, estaba escribiendo código de análisis de elementos finitos que utilizaba hardware de procesamiento vectorial para acelerar las operaciones matriciales. Las NPU actuales son descendientes directas de esos procesadores vectoriales, optimizados para operaciones similares en el complejo espacio vectorial utilizado por las redes neuronales. Si está utilizando cualquiera de los dispositivos Arm de la generación actual de Microsoft (o un puñado de dispositivos Intel o AMD recientes), ya tiene una NPU, aunque no tan poderosa como las 40 TOPS (tera de operaciones por segundo) necesarias para cumplir Requisitos de PC Copilot+ de Microsoft.

Microsoft ya ha demostrado una gama de diferentes aplicaciones basadas en NPU en este hardware existente, con acceso para desarrolladores a través de sus API DirectML y soporte para el tiempo de ejecución de inferencia ONNX. Sin embargo, Build 2024 mostró un nivel diferente de compromiso con su audiencia de desarrolladores, con un nuevo conjunto de servicios de IA alojados en terminales agrupados bajo una nueva marca: el tiempo de ejecución del copiloto de Windows.

Windows Copilot Runtime es una combinación de servicios nuevos y existentes que están destinados a ayudar a ofrecer aplicaciones de IA en Windows. Debajo del capó hay un nuevo conjunto de bibliotecas para desarrolladores y más de 40 modelos de aprendizaje automático, incluido Phi Silica, una versión centrada en NPU de la familia Phi de Microsoft. pequeños modelos de lenguaje.

Los modelos de Windows Copilot Runtime no son todos modelos de lenguaje. Muchos están diseñados para funcionar con el canal de vídeo de Windows y admiten versiones mejoradas de los efectos de Studio existentes. Si los modelos incluidos no son suficientes o no cumplen con sus casos de uso específicos, existen herramientas para ayudarlo a ejecutar sus propios modelos en Windows, con soporte directo para PyTorch y un nuevo tiempo de ejecución del modelo alojado en la web, WebNNque permite que los modelos se ejecuten en un navegador web (y posiblemente, en una versión futura, en aplicaciones WebAssembly).

Una pila de desarrollo de IA para Windows

Microsoft describe Windows Copilot Runtime como “nuevas formas de interactuar con el sistema operativo” utilizando herramientas de inteligencia artificial. En Build, Windows Copilot Runtime se mostró como una pila que se ejecuta sobre nuevas capacidades de silicio, con nuevas bibliotecas y modelos, junto con las herramientas necesarias para ayudarlo a construir ese código.

Esa simple pila es una especie de simplificación excesiva. Por otra parte, mostrar todos los componentes de Windows Copilot Runtime llenaría rápidamente una diapositiva de PowerPoint. En el fondo hay dos características interesantes: el almacén de vectores local DiskANN y el conjunto de API que se denominan colectivamente la biblioteca copiloto de Windows.

Se podría pensar en DiskANN como la base de datos vectorial equivalente a SQLite. Es un almacén local rápido para los datos vectoriales que son clave para construir generación de recuperación aumentada (RAG) aplicaciones. Al igual que SQLite, DiskANN no tiene interfaz de usuario; todo se hace a través de cualquiera de los dos una interfaz de línea de comando o llamadas API. DiskANN utiliza una búsqueda de vecino más cercano incorporada y se puede utilizar para almacenar incrustaciones y contenido. También funciona con la búsqueda integrada de Windows, vinculando a estructuras y archivos NTFS.

La creación de código sobre Windows Copilot Runtime se basa en los más de 40 modelos diferentes de inteligencia artificial y aprendizaje automático incluidos con la pila. Nuevamente, no todos estos son modelos generativos, ya que muchos se basan en modelos utilizados por Azure Cognitive Services para tareas de visión por computadora, como el reconocimiento de texto y la canalización de la cámara de Windows Studio Effects.

Incluso existe la opción de cambiar a API en la nube, ofreciendo, por ejemplo, la opción de un modelo de lenguaje pequeño local o uno alojado en la nube. modelo de lenguaje grande como ChatGPT. El código puede cambiar automáticamente entre los dos según el ancho de banda disponible o la complejidad de la tarea actual.

Microsoft proporciona una lista de verificación básica para ayudarlo a decidir entre las API de IA locales y en la nube. Los puntos clave a considerar son los recursos disponibles, la privacidad y los costos. Usar recursos locales no costará nada, mientras que los costos de usar servicios de IA en la nube pueden ser impredecibles.

API de la biblioteca Copilot de Windows como Reconocimiento de texto AI requerirá una NPU adecuada para aprovechar sus capacidades de aceleración de hardware. Las imágenes deben agregarse a un búfer de imágenes antes de llamar a la API. Al igual que con la API de Azure equivalente, debe entregar un mapa de bits a la API antes de recopilar el texto reconocido como una cadena. Además, puede obtener detalles del cuadro delimitador, de modo que pueda proporcionar una superposición en la imagen inicial, junto con niveles de confianza para el texto reconocido.

Phi Silica: un modelo de lenguaje en el dispositivo para NPU

Uno de los componentes clave de Windows Copilot Runtime es el nuevo modelo de lenguaje pequeño Phi Silica optimizado para NPU. Como parte de la familia de modelos Phi, Phi Silica es un sistema fácil de usar. IA generativa modelo diseñado para entregar respuestas de texto a entradas solicitadas. El código de muestra muestra que Phi Silica usa un nuevo espacio de nombres Microsoft.Windows.AI.Generative C# y se llama de forma asincrónica, respondiendo a solicitudes de cadena con una respuesta de cadena generativa.

Utilizando el API básica de sílice Phi es sencillo. Una vez que haya creado un método para manejar llamadas, puede esperar una cadena completa u obtener resultados a medida que se generan, lo que le permite elegir la experiencia del usuario. Otras llamadas obtienen información de estado del modelo, por lo que puede ver si las indicaciones han creado una respuesta o si la llamada ha fallado.

Phi Silica tiene limitaciones. Incluso usando la NPU de una PC Copilot+, Phi Silica puede procesar solo 650 tokens por segundo. Eso debería ser suficiente para ofrecer una respuesta fluida a un único mensaje, pero la gestión de varios mensajes simultáneamente podría mostrar signos de desaceleración.

Phi Silica se capacitó con el contenido de los libros de texto, por lo que no es tan flexible como, por ejemplo, ChatGPT. Sin embargo, es menos propenso a errores y puede integrarse en la orquestación de su propio agente local utilizando técnicas RAG y un índice vectorial local almacenado en DiskANN, dirigido a los archivos de una carpeta específica.

Microsoft ha hablado de Windows Copilot Runtime como un componente separado de la pila de desarrolladores de Windows. De hecho, está mucho más profundamente integrado de lo que sugieren las notas clave de Build, ya que se envía como parte de un Actualización de junio de 2024 del SDK de aplicaciones de Windows. Microsoft no está simplemente haciendo una gran apuesta por la IA en Windows, sino que está apostando a que la IA y, más específicamente, el lenguaje natural y la computación semántica son el futuro de Windows.

Herramientas para construir Windows AI

Si bien es probable que la pila de Windows Copilot Runtime se base en las herramientas existentes de Windows AI Studio, ahora se llama AI Toolkit para Visual Studio Code, todavía falta la imagen completa. Curiosamente, las versiones recientes del AI Toolkit (posteriores a la versión 2024) agregaron soporte para el ajuste y desarrollo de modelos Linux x64 y Arm64. Esto es un buen augurio para una rápida implementación de un conjunto completo de herramientas de desarrollo de IA y para un posible futuro kit de herramientas de IA para Visual Studio.

Una característica importante del AI Toolkit que es esencial para trabajar con modelos de Windows Copilot Runtime es su área de juegos, donde puede experimentar con sus modelos antes de construirlos en sus propios Copilots. Está pensado para funcionar con modelos de lenguajes pequeños como Phi, o con modelos PyTorch de código abierto de Hugging Face, por lo que debería beneficiarse de las nuevas características del sistema operativo en la versión 24H2 de Windows y del hardware NPU en las PC Copilot+.

Conoceremos más detalles con el lanzamiento en junio del SDK de aplicaciones de Windows y la llegada del primer hardware para PC Copilot+. Sin embargo, ya está claro que Microsoft apunta a ofrecer una plataforma que integra la IA en el corazón de Windows y, como resultado, facilita la adición de funciones de IA a sus propias aplicaciones de escritorio, de forma segura y privada, bajo el control de sus usuarios. Como beneficio adicional para Microsoft, también debería ayudar a mantener bajo control el presupuesto de energía y refrigeración de Azure.

[ad_2]

Enlace fuente