La inteligencia artificial de Google ha dado otro gran salto. Tras la evolución de Google Assistant a Bard y ahora a Gemini, la compañía presenta una herramienta que realmente marca la diferencia: Gemini Live con cámara en tiempo real, una función que convierte a la IA en una especie de asistente visual. Ahora, literalmente, puede ver lo que tienes delante y describírtelo al instante.
De subir fotos a verlo todo en tiempo real
Hasta hace poco, las IAs necesitaban que les subieras fotos o vídeos para analizarlos. Pero eso ha cambiado. Herramientas como ChatGPT con visión y ahora Gemini Live Camera llevan esta experiencia a otro nivel: basta con abrir la cámara de tu móvil para que la inteligencia artificial te diga qué está viendo y te lo explique en tiempo real.
Imagina preguntarle: “¿Qué edificio tengo enfrente?” y recibir no solo el nombre, sino también su historia, horarios de visita y precio de entrada. Todo sin necesidad de escribir ni buscar manualmente. Así de potente es esta nueva función.
¿Qué es Gemini Live Camera y cómo se usa?
Gemini Live Camera, anteriormente conocida como Project Astra, está integrada en la app de Gemini. Para activarla:
- Abre la interfaz de Gemini.
- Toca el icono de audio para iniciar Gemini Live.
- Pulsa el nuevo botón de cámara 📷.
Desde ese momento, la IA tendrá acceso a lo que ve la cámara y podrás hablarle como si conversaras con una persona real. Puedes preguntarle:
- ¿Qué objeto tengo delante?
- ¿Qué tipo de planta es esta?
- ¿Cómo se resuelve este problema de matemáticas?
- ¿Qué dice este letrero en otro idioma?
Además, si activas el modo de compartir pantalla, Gemini puede analizar lo que aparece en tu móvil y ayudarte con lo que estás viendo: apps, menús, configuraciones o documentos.
Funciona en español y en varios dispositivos Android
La función ya comenzó a llegar a varios teléfonos Android, incluidos los Google Pixel y otros modelos de distintas marcas. Lo mejor: funciona completamente en español.
Durante las pruebas, Gemini demostró un altísimo nivel de precisión, incluso al reconocer objetos difíciles de identificar. Su lenguaje es claro y sus respuestas muy comprensibles, lo que la convierte en una herramienta útil para muchísimas personas. Incluso podría ser de gran ayuda para personas con discapacidad visual.
¿La pega? Demasiadas preguntas
Aunque la función es sorprendente, hay algo que puede resultar molesto: Gemini Live interrumpe frecuentemente para preguntar si debe continuar. Esto rompe un poco la fluidez de la experiencia, sobre todo si lo estás usando como guía visual continua.
Sería ideal que la IA pudiera seguir describiendo sin esperar nuevas órdenes a cada momento. Aun así, basta con decirle “sigue mirando” para que continúe, aunque no es lo más práctico.
¿Mejor que ChatGPT?
En cuanto a precisión y capacidades, Gemini Live Camera está al nivel de ChatGPT con visión. Ambas identifican objetos, traducen, resuelven problemas, explican conceptos y más. También comparten la misma “manía” de hacer pausas para confirmar instrucciones. Pero en cuanto a resultados, ambas están en la cima de la inteligencia artificial actual.
¿Para qué sirve realmente Gemini Live?
Las posibilidades son infinitas:
- Actúa como guía turístico: reconoce monumentos y da información al instante.
- Es un profesor visual: resuelve problemas matemáticos o explica lo que ve.
- Funciona como traductor en tiempo real.
- Identifica plantas y objetos al instante.
- Puede ayudarte en tus tareas con interacción directa en pantalla.
Y todo con lenguaje natural. No necesitas saber comandos técnicos, solo habla como lo harías con una persona.
Disponible solo en Gemini Advanced… por ahora
Actualmente, el modo cámara y la opción de compartir pantalla solo están disponibles para usuarios suscritos a Gemini Advanced, la versión de pago del servicio. Pero Google tiene el historial de liberar sus herramientas poco después, así que es muy probable que pronto llegue a todos los usuarios.
En resumen
Gemini ahora tiene ojos y ve lo que tú ves. Este avance lo posiciona como uno de los asistentes más avanzados del mercado, a la par de ChatGPT con visión. Aunque todavía necesita pulirse un poco para no interrumpir tanto, la experiencia es revolucionaria.
Si tienes acceso a Gemini Advanced, pruébalo ya. Y si no, mantente atento: esta función está llamada a cambiar la forma en la que interactuamos con la inteligencia artificial.