A medida que la IA generativa continúa dominando los titulares, a veces es difícil encontrar casos de uso empresarial reales que funcionen entre la publicidad. Escritor es una startup de San Francisco que está trabajando para crear productos de escritura de IA generativa teniendo en cuenta a la empresa. Hoy, la compañía anunció una nueva capacidad para su modelo palmira que genera texto a partir de imágenes, incluidos gráficos y tablas, lo llaman Palmyra-Vision.
May Habib, cofundadora y directora ejecutiva de la empresa, dice que tomaron la decisión estratégica de concentrarse en contenido multimodal, y poder generar texto a partir de imágenes es parte de esa estrategia. «Nos centraremos en la entrada multimodal, pero también en la salida de texto, es decir, en la generación de texto y la información que se entrega a través de texto», dijo Habib a TechCrunch.
Siguiendo esa estrella guía, la empresa decidió analizar imágenes, en lugar de producirlas (al menos por ahora). Ella se reserva el derecho de crear tablas y gráficos en algún momento a partir de datos, pero eso no es algo que estén haciendo en este momento. Esta versión en particular se centra en generar texto a partir de ese tipo de imágenes.
La compañía utiliza un enfoque de modelos múltiples para producir los resultados de Palmyra Vision, donde cada modelo tiene un trabajo específico que hacer para determinar qué hay en la imagen y luego generar el texto con cuatro nueves de precisión, según Habib.
Esto tiene varios casos de uso, incluido un sitio web de comercio electrónico que genera texto a partir de miles de imágenes cambiantes para completar el sitio web con las últimas novedades sin que un ser humano esté al tanto de cada cambio, o que interprete automáticamente las conclusiones clave de cuadros y gráficos. Otro ejemplo es una verificación de cumplimiento. Por ejemplo, una empresa farmacéutica podría utilizar Palmyra-Vision para realizar una verificación automatizada del cumplimiento de la FDA con respecto al texto del anuncio, asegurándose de que el anuncio cumpla con las regulaciones de la FDA como se describe en un documento asociado, como en el ejemplo siguiente.
Finalmente, el producto puede interpretar y resumir notas escritas a mano en texto, pero Habib dice que requiere entrenar el modelo para casos de uso individuales, como médicos o seguros, para que la precisión esté ahí.
Habib dice que no recomienda el uso de estas herramientas sin una revisión humana como parte del flujo de trabajo. Ella cree que esto es absolutamente esencial porque cualquier modelo puede alucinar (inventar cosas) o simplemente equivocarse en los hechos, y es importante que haya gente que compruebe los resultados. Si bien siempre recomiendan esto a todos los clientes, y la mayoría lo entiende en este momento, ella cree que eventualmente requerirá un flujo de trabajo más automatizado para que esto suceda de manera consistente entre los clientes, algo en lo que, según ella, están trabajando.
La compañía ha recaudado 126 millones de dólares hasta la fecha, por datos de base crujiente. y actualmente está hablando con las grandes plataformas de infraestructura en la nube sobre la posibilidad de asociarse mientras intentan escalar la empresa. Su ronda más reciente fue una $ 100 millones Serie B el pasado mes de septiembre liderado por Iconiq.
La última versión de Palmyra con capacidades de imagen a texto está disponible a partir de hoy.