top of page
Kevin Anderson

ChatGPT: Interfaz más Intuitiva con voz e imagen

Actualizado: 14 mar

El 25 de septiembre de 2023, OpenAI anunció emocionantes desarrollos para ChatGPT, incorporando capacidades de voz e imagen a este asistente impulsado por inteligencia artificial.


Estas mejoras prometen una interacción más intuitiva con ChatGPT, permitiendo a los usuarios entablar conversaciones por voz y compartir imágenes para mejorar su vida cotidiana.



Chat GPT Puede ver imagenes y escuchar audios


ChatGPT y nuevas conversaciones mediante el uso de la voz


ChatGPT ahora tiene la capacidad de conversar con los usuarios mediante voz. Esta característica abre numerosas posibilidades, desde solicitar una historia antes de dormir para su familia hasta resolver debates en la mesa durante la cena. Así es cómo puedes comenzar a usar la voz:


  • Acceder a la Voz: Para empezar a utilizar la voz, ve a Configuración → Nuevas Funciones en la aplicación móvil y activa las conversaciones por voz.

  • Elegir tu Voz Preferida: Tras habilitar esta función, pulsa el botón de auriculares en la esquina superior derecha de la pantalla de inicio y selecciona tu voz preferida entre cinco voces distintas.


La nueva capacidad de voz está impulsada por un avanzado modelo de texto a voz, diseñado para generar audio similar al humano a partir de texto y una breve muestra de habla. OpenAI colaboró con actores de voz profesionales para crear estas voces. Además, Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, transcribe las palabras habladas en texto.


La voz ofrece diversas aplicaciones creativas y enfocadas en accesibilidad, al tiempo que introduce nuevas consideraciones de seguridad y uso responsable.


Chat GPT y el uso de Imagénes en sus preguntas o prompts



Chat GPT ahora con imagenes

Las capacidades de imagen de ChatGPT permiten a los usuarios compartir una o más imágenes para su discusión. Esta función es increíblemente versátil, lo que permite a los usuarios solucionar problemas técnicos, planificar comidas según el contenido de su nevera o analizar gráficos de datos complejos relacionados con el trabajo.


Para usar las capacidades de imagen:


Capturar o Seleccionar una Imagen: Toca el botón de foto para capturar o seleccionar una imagen. Para los usuarios de iOS o Android, toca el botón de más antes de continuar. También puedes discutir varias imágenes o usar una herramienta de dibujo para guiar a ChatGPT.


La comprensión de imágenes está impulsada por los modelos multimodales GPT-3.5 y GPT-4, que aplican sus habilidades de razonamiento en lenguaje a una amplia gama de imágenes, incluidas fotografías, capturas de pantalla y documentos que contienen texto e imágenes.


Implementación Gradual para la Seguridad:


El compromiso de OpenAI de construir una IA segura y beneficiosa implica la implementación gradual de estas características avanzadas. Este enfoque permite mejoras continuas, la refinación de la mitigación de riesgos y la preparación para sistemas más potentes en el futuro.


La tecnología de voz, capaz de crear voces sintéticas realistas, se introduce inicialmente para las conversaciones por voz, trabajando con actores de voz y colaboradores como Spotify para la traducción de podcasts.


Los modelos basados en visión presentan su propio conjunto de desafíos, que incluyen posibles interpretaciones erróneas y preocupaciones de privacidad.


OpenAI ha realizado pruebas exhaustivas y ha recopilado comentarios para garantizar el uso responsable y mejorar la seguridad.


Transparencia y Limitaciones:


OpenAI es transparente acerca de las limitaciones de estas características. Si bien ChatGPT se destaca en la transcripción de texto en inglés, su rendimiento en otros idiomas, especialmente aquellos con escrituras no romanas, puede ser limitado.


Se recomienda a los usuarios que utilicen ChatGPT considerando su nivel de competencia en idiomas.


Conclusión


Las nuevas capacidades de voz e imagen de ChatGPT representan un gran avance en la interacción con la IA. Estas características ofrecen mayor comodidad, creatividad y accesibilidad, todo ello priorizando la seguridad y el uso responsable.

Los usuarios de Plus y Enterprise pueden esperar experimentar estas capacidades en las próximas dos semanas, con una expansión adicional planeada en el futuro cercano.


OpenAI continúa siendo pionera en los avances de la IA, acercándonos a una experiencia más integrada con la inteligencia artificial.

60 visualizaciones
back to top.png
bottom of page