El 13 de mayo de 2024, OpenAI lanzó GPT-4o («o» de «omni»), la última versión de su modelo de lenguaje, ChatGPT. Esta nueva versión trae consigo funcionalidades innovadoras, acceso gratuito para todos los usuarios y mejoras significativas que revolucionan la interacción persona-computadora.
Funcionalidades Innovadoras de GPT-4o
GPT-4o será desplegado en los productos de OpenAI en las próximas semanas. Este modelo acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas en estos formatos. Es un avance significativo en la tecnología de inteligencia artificial.
El asistente de IA de OpenAI puede ahora leer las emociones en los rostros de los usuarios a través de la cámara de sus teléfonos inteligentes. Esta capacidad le permite guiarlos para realizar ejercicios de respiración, contarles historias, o incluso ayudarles a resolver problemas matemáticos. Esta funcionalidad es un paso adelante en la personalización y humanización de la IA.
Traducción Simultánea y Operaciones Matemáticas
Durante la presentación de GPT-4o, OpenAI demostró su capacidad para realizar traducciones simultáneas en diversos idiomas. Además, el modelo puede llevar a cabo complejas operaciones matemáticas, haciendo estas funciones accesibles para cualquier usuario.
Mira Murati, directora tecnológica de OpenAI, destacó en una conferencia de prensa virtual: “Estamos muy, muy entusiasmados de presentar GPT-4o a todos nuestros usuarios gratuitos. Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones.”
Asistente Vocal y Tiempo de Respuesta
Otra de las impresionantes características de GPT-4o es su asistente accionado por voz. Este asistente puede reproducir la fluidez de discusiones entre humanos, combinando transcripción, inteligencia y capacidad de hablar para ofrecer una interacción vocal avanzada. GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que es comparable al tiempo de respuesta humano en una conversación.
Disponibilidad Gratuita para Todos los Usuarios
GPT-4o se implementará de forma escalonada y gratuita para todos los usuarios. Desde hoy, las capacidades de texto e imagen de GPT-4o están comenzando a implementarse en ChatGPT. OpenAI ha anunciado que GPT-4o estará disponible en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores. Además, una nueva versión del Modo de Voz con GPT-4o en alfa estará disponible dentro de ChatGPT Plus en las próximas semanas.
Conclusión
GPT-4o representa un gran avance en la tecnología de inteligencia artificial, ofreciendo funcionalidades innovadoras y acceso gratuito para todos. Con su capacidad para leer emociones, realizar traducciones simultáneas y ejecutar operaciones matemáticas complejas, esta nueva versión de ChatGPT está destinada a transformar la interacción con los asistentes de IA.