GPT-4o: OpenIA presentó su inteligencia artificial más potente

Hace unos días, se rumoreaba que en el evento anual que hace OpenAI para presentar novedades lanzarían su propio buscador. Si bien el anuncio no tuvo que ver con eso, la compañía de Sam Altman sorprendió al presentar a GPT-4o, su modelo de inteligencia artificial más complejo hasta el momento.

Qué pasó. Durante la presentación, se pudo ver una nueva actualización de su IA, llamada GPT-4o, que estará disponible para todos los usuarios de forma gratuita a través de la app de ChatGPT, y que permitirá que interactuemos con voz, audio e imágenes de una manera increíblemente veloz.

Presentación. En el anuncio, uno de los ingenieros de OpenAI mostró cómo funcionaba esta tecnología. En un video donde usaba la cámara, habló con GPT y le hizo adivinar dónde estaba. La tecnología rápidamente notó que se encontraba en una especie de estudio de grabación y detalló no solo objetos sino la situación en la que se encontraba el ingeniero. Realmente sorprendente.

La latencia es uno de los temas principales de estos modelos que hablan con los usuarios. Los expertos redujeron los tiempos de repuesta notablemente. Ahora tener una conversación con GPT-4o, al ser mucho más rápida, se sentirá más real, menos sintética. Incluso podemos interrumpir a la tecnología para iterar el prompt a medida que vamos escuchando su respuesta.

GPT-4o. El nombre de este nuevo modelo tiene que ver con que esté disponible en todo los canales posibles. De hecho la «o» viene de omni, por omnicanal.

Lo que dijeron. «Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones», aseguraron desde la empresa.

Google revela su nueva IA y cómo funcionará con Gmail, Fotos y más. Esta semana fue el Google I/O, el evento para desarrolladores que la empresa del buscador hace todos los años. Durante la presentación, Sundar Pichai, CEO de la empresa, hizo varios anuncios, pero uno de los que más llamó la atención fueron las novedades en Gemini, la inteligencia artificial de la compañía.

Gemini 1.5 Flash. Pichai anunció Gemini 1.5 Flash, que se trata de un nuevo y mucho más veloz modelo. «Escuchamos que los desarrolladores querían algo más rápido», dijo Demis Hassabis, director ejecutivo de Google DeepMind.

Gemini 1.5 Pro. Pero en el centro de la escena también estuvo Gemini 1.5 Pro, uno de los modelos más potentes de la compañía con features como Ask Photos, que permite buscar fotos con pedidos detallados como «¿Cuál es la patente de mi auto?» o «¿En qué fecha aprendió mi hija a nadar?». Hay más. También mostraron cómo le pedían a Gemini que resumiera la información de todos los últimos correos que había recibido de la escuela analizando no solo el contenido, sino también sus adjuntos.

Contexto. Si tenemos en cuenta que todos estos anuncios llegaron un día después de que OpenAI presentara GPT-4o, se podría decir que estamos viviendo momentos en los que claramente hay una pelea feroz por ver quién se queda con una mayor parte del mercado.

Nota de Axel Marazzi gentileza de TN Futuro.-