OpenAI ha dado un paso gigante hacia una interacción más intuitiva y rica con su IA generativa, ChatGPT, al incorporar nuevas capacidades de voz e imagen. Estas adiciones permitirán a los usuarios comunicarse verbalmente con ChatGPT, presentarle imágenes para obtener respuestas pertinentes y disfrutar de conversaciones más elaboradas. Estas funciones estarán disponibles para los usuarios de los planes Plus y Enterprise en las próximas semanas, marcando un hito en cómo interactuamos con esta IA.
Conversaciones Habladas con ChatGPT: Un Nuevo Horizonte en la Interacción
OpenAI ha decidido priorizar el chat de voz, permitiendo a los usuarios solicitar información, narrar historias o resolver inquietudes de manera verbal. Esta nueva dimensión de interacción busca hacer la experiencia más personal y accesible. Para activar la función de voz, los usuarios deberán acceder a la configuración en la aplicación móvil, seleccionar «Nuevas funciones» y optar por las «Conversaciones de voz», eligiendo una entre las 5 voces disponibles para su asistente.
La tecnología subyacente se apoya en un modelo de conversión de texto a voz que puede generar audio realista a partir de texto y una breve muestra de voz, en colaboración con actores de voz profesionales. Además, se integra Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, que transcribe las palabras habladas en texto, proporcionando una experiencia más rica y natural.
Esta innovación no se limita a ChatGPT, ya que OpenAI también está colaborando con organizaciones externas como Spotify, en un piloto que permite a los podcasters traducir sus programas a diferentes idiomas utilizando las voces de los propios podcasters.
Comprendiendo Imágenes: Un Salto Cualitativo en la Funcionalidad de ChatGPT
La otra gran incorporación es la capacidad de ChatGPT para comprender y discutir imágenes. Los usuarios pueden mostrar una o varias imágenes y obtener respuestas útiles basadas en lo que la IA ve. Esto abre un abanico de aplicaciones, desde solucionar problemas técnicos hasta planificar comidas o analizar gráficos complejos.
La comprensión de imágenes se basa en los modelos GPT-3.5 y GPT-4 multimodales, que aplican su capacidad de razonamiento lingüístico a una amplia variedad de imágenes, incluyendo fotografías, capturas de pantalla y documentos que combinan texto e imágenes. OpenAI ha implementado medidas técnicas para garantizar la privacidad y evitar análisis intrusivos o inapropiados de las personas en las imágenes compartidas por los usuarios.
Comparte esta noticia en tus redes sociales y continúa explorando más novedades en MarketingHoy.