Según la startup israelí NeuReality, muchas posibilidades de la IA no se aprovechan plenamente debido al costo y la complejidad de construir y escalar sistemas de IA.
Las soluciones actuales no están optimizadas para la inferencia y dependen de CPU de uso general, que no fueron diseñadas para la IA. Además, las arquitecturas centradas en la CPU necesitan múltiples componentes de hardware, lo que da como resultado aceleradores de aprendizaje profundo (DLA) infrautilizados debido a los cuellos de botella de la CPU.
La respuesta de NeuReality a este problema es la solución de inferencia NR1AI, una combinación de software especialmente diseñado y un servidor de inferencia en un chip direccionable en red único. NeuReality dice que esto brindará un mejor rendimiento y escalabilidad a un costo menor junto con un consumo de energía reducido.
Un carril rápido para grandes oleoductos de IA
«Nuestra disruptiva tecnología de inferencia de IA no está limitada por las CPU, GPU y NIC convencionales», dijo Moshe Tanach, director ejecutivo de NeuReality. «No intentamos simplemente mejorar un sistema que ya era defectuoso. En lugar de eso, desempaquetamos y redefinimos el sistema de inferencia de IA ideal de arriba a abajo y de extremo a extremo, para ofrecer un rendimiento innovador, ahorro de costos y eficiencia energética».
La clave de la solución de NeuReality es una Unidad de procesamiento direccionable en red (NAPU), un nuevo diseño de arquitectura que aprovecha el poder de los DLA. NeuReality NR1, un servidor en un chip de inferencia direccionable en red, tiene un motor de red neuronal integrado y una NAPU.
Esta nueva arquitectura permite la inferencia a través de hardware con AI-over-Fabric, un hipervisor de AI y descarga de canalización de AI.
La empresa tiene dos productos que utilizan su servidor en un chip: el módulo de inferencia de IA NR1-M y el dispositivo de inferencia de IA NR1-S. La primera es una tarjeta PCIe de altura completa y doble ancho que contiene un sistema en un chip NAPU NR1 y un servidor de inferencia direccionable en red que se puede conectar a un DLA externo. Este último es un servidor de inferencia centrado en IA que contiene módulos NR1-M con NR1 NAPU. NeuReality afirma que el servidor «reduce el costo y el rendimiento energético hasta 50 veces, pero no requiere que TI lo implemente para los usuarios finales».
«Invertir en más y más DLA, GPU, LPU, TPU… no solucionará el problema central de la ineficiencia del sistema», afirmó Tanach. “Es como instalar un motor más rápido en su automóvil para navegar a través de la congestión del tráfico y los callejones sin salida; simplemente no lo llevará a su destino más rápido. NeuReality, por otro lado, proporciona una vía rápida para grandes canales de IA, enrutando tareas sin problemas a dispositivos de IA especialmente diseñados y entregando respuestas rápidamente a sus clientes, al mismo tiempo que conserva recursos y capital”.
NeuReality obtuvo recientemente 20 millones de dólares en financiación del Fondo del Consejo Europeo de Innovación (EIC), Varana Capital, Cleveland Avenue, XT Hi-Tech y OurCrowd.