Se respondió correctamente una pregunta de seguimiento sobre el puntaje final, pero Gemini obtuvo el nombre del anotador del primer touchdown incorrecto: la IA sugirió que era Johan Dotson. Se mostró a Dotson obteniendo un touchdown en los aspectos más destacados con los puntajes a 0-0, pero se descartó, un ejemplo de los matices que AI no necesariamente no capta.
Gemini identificó con éxito cuándo los Chiefs de Kansas City obtuvieron sus primeros puntos, e incluso incluyó una marca de tiempo que vincula directamente al touchdown en el clip de YouTube. También obtuvo el nombre del anotador correcto. Parece que Géminis depende en gran medida del comentario de los clips deportivos, lo que no es sorprendente.
Resumir el contenido de video
A continuación, intentamos poner a Géminis contra un largometraje detrás de escena para el Grand Budapest Hotel, dirigido por Wes Anderson. El clip se extiende a cuatro minutos y medio, y Gemini respondió algunas respuestas casi al instante: identificó el nombre de la película de la que se habla y los principales ritmos de la narrativa del clip.
Sin embargo, todo depende del audio (o la transcripción) nuevamente; no parece haber ningún análisis de los contenidos de video real. La IA no podía decir quiénes eran las cabezas parlantes en el video, a pesar de que sus nombres se mostraban en la pantalla, y no pudo decir quién era el director (aunque esto también se mencionó en la descripción del video).
En el lado positivo, Gemini hizo un trabajo impresionante al resumir el audio del video. Identificó correctamente algunos de los desafíos cinematográficos que se mencionaron en todo momento, y les proporcionó marcas de tiempo, desde buscar un set para representar el Grand Budapest, hasta llenarlo de extras.
Resumir entrevistas
Finalmente, probamos Google Gemini con una entrevista: Channel 4 en el Reino Unido hablando con Charlie Brooker y Siena Kelly sobre la última serie de Espejo negro (quizás apropiado para un artículo sobre AI). Gemini demostró ser muy capaz de elegir los puntos de conversación y agregar marcas de tiempo, aunque, por supuesto, todo el video está hablando principalmente.
Una vez más, no hay contexto sobre nada fuera del audio o la transcripción. Gemini AI no podía decir dónde se llevó a cabo la entrevista, o cómo actuaban los participantes, o cualquier otra cosa sobre las imágenes del video, lo que vale la pena tener en cuenta si lo usa usted mismo.
Para los videos donde las respuestas que desea se encuentran en el audio de un video de YouTube, y su transcripción asociada, Gemini funciona muy bien para resumir y proporcionar respuestas precisas (siempre que los comentaristas mencionen cuándo se descarta un touchdown, así como cuándo se puntúa). Para cualquier tipo de información visual, todavía tendrá que ver el video usted mismo.