
Estamos siendo testigos de una evolución notable en el ámbito tecnológico. OpenAI está ampliando su modelo de IA, ChatGPT, para percibir e interactuar con el mundo de una manera nunca vista antes. Al incorporar nuevas capacidades para interpretar imágenes y ofrecer conversaciones en voz, OpenAI está transformando la forma en que podemos interactuar con la inteligencia artificial. Es fundamental desentrañar las capas de este salto cuántico y comprender las implicaciones transformadoras para nuestros encuentros cotidianos con la IA.
«Al igual que existen profundidades en el océano a las que el ancla del hombre no puede llegar», dijo Victor Hugo, «también existen alturas en el Universo a las que el mástil del hombre no puede señalar». Pero con este nuevo despliegue, parece que estamos echando nuestro ancla un poco más profundo y nuestro mástil un poco más alto.
Reinventando Diálogos: El Poder de la Compañía Sónica
Para aquellos que constantemente tienen las manos ocupadas o prefieren la confortante cadencia del habla humana, OpenAI ha presentado su característica más vanguardista hasta la fecha: la conversación por voz con ChatGPT. Sí, lo leyó bien. Ahora puede mantener conversaciones de ida y vuelta utilizando la voz, un concepto de ciencia ficción que ahora se encuentra cómodamente en la realidad.
Para experimentar esta revolución auditiva, diríjase a Configuración > Nuevas Características en la aplicación móvil y elija participar en las conversaciones de voz. Toque el icono de los auriculares en la esquina superior derecha y elija su voz preferida de entre cinco personajes de sonido distintivamente diseñados.
La inteligencia sinfónica que subyace a estas conversaciones está impulsada por el modelo de texto a voz de OpenAI, que genera audio sorprendentemente humano a partir de simples fragmentos de texto. Esto se ve complementado por los hábiles oídos de Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, que transcribe sus palabras habladas en un formato textual.
Escuche las hermosas interpretaciones en esta conversación de muestra:
«Una vez en un tranquilo bosque, había una tierna mamá gata llamada Lila. En un día soleado, se acurrucó con su juguetón gatito, Milo, a la sombra de un viejo roble.
«Milo», comenzó Lila, su voz suave y gentil, «pronto tendrás una nueva compañera de juegos».
Las orejas de Milo se levantaron, curioso. «¿Una nueva compañera de juegos?»
Lila ronroneó, «Sí, una hermanita».
Los ojos de Milo se abrieron con emoción. «¿Una hermana? ¿Perseguirá colas como yo?»
Lila se rió. «Oh, tendrá sus propias peculiaridades. ¿Le enseñarás, verdad?»
Milo asintió con entusiasmo, soñando con las aventuras que compartirían.»
Intercambio de Pensamientos y Píxeles: Visión de ChatGPT A menudo, las palabras por sí solas no pueden capturar completamente un momento. Ahora, puede mostrar imágenes a ChatGPT y desentrañar sus connotaciones. Solucionar un aparato desobediente, explorar recetas potenciales en el inventario de su refrigerador o analizar un gráfico complejo para el trabajo nunca ha sido más sencillo.
Simplemente toque el botón de la foto para iniciar una conversación sobre una imagen o un conjunto de ellas. Si desea centrarse en un cuadrante específico de la imagen, utilice la herramienta de dibujo en la aplicación móvil.
Tras bastidores, el descubrimiento de la sabiduría pictórica está impulsado por multimodal GPT-3.5 y GPT-4, que demuestran habilidades de razonamiento lingüístico que ahora pueden abarcar una amplia variedad de imágenes, desde fotos hasta capturas de pantalla y documentos que contienen una mezcla de texto y elementos visuales.
Implementando de Manera Segura, Escalando Gradualmente
En la búsqueda de construir una IA general que sea segura y beneficiosa, OpenAI está implementando estos avances de manera gradual. Se trata de una estrategia meticulosa que equilibra cuidadosamente el valor para el usuario, la velocidad de aprendizaje, la innovación y la seguridad. Este enfoque se vuelve doblemente crucial cuando se trata de mejoras en el sistema que involucran la transformación de la voz y la visión.
Abordando Preocupaciones: Fantasma de la Voz y Alucinaciones Visuales
Como con cualquier tecnología, surgirán desafíos. La capacidad de la tecnología para crear voces sintéticas abre una caja de Pandora de posibilidades, al tiempo que potencialmente permite que actores maliciosos manipulen voces con propósitos cuestionables.
OpenAI está utilizando conscientemente estas capacidades para casos de uso específicos y colaborando con socios como Spotify. Por ejemplo, su función de Traducción de Voz tiene como objetivo expandir el alcance lingüístico de los podcasters de manera fluida.
El camino hacia las capacidades de visión estuvo igualmente plagado de obstáculos. La posibilidad de que la IA alucine con personas y los riesgos de sus interpretaciones, especialmente en dominios de alto riesgo, son preocupaciones válidas. Diversas fases de pruebas con grupos evaluadores diversos ayudaron a OpenAI a establecer normas de uso aceptables.
Visión: Una Herramienta para el Empoderamiento
OpenAI ha dado pasos para asegurarse de que la visión sea una característica que asista sin infringir la privacidad. La retroalimentación del usuario y el uso en el mundo real son fundamentales para ayudar a OpenAI a perfeccionar estas salvaguardias mientras mantiene su utilidad.
Mediante estrechas colaboraciones con organizaciones como ‘Be My Eyes’, una aplicación de ayuda para usuarios ciegos y con baja visión, OpenAI está aprendiendo más sobre cómo la visión de IA puede ser valiosa en situaciones cotidianas, así como dónde se encuentran sus limitaciones.
Reconociendo las Limitaciones del Modelo: Un Punto de Partida para la Confianza
Confiar en una IA con tareas especializadas es, sin duda, un movimiento acertado en esta era digital. Sin embargo, los modelos actuales tienen sus limitaciones. Aunque pueden destacar en la transcripción de texto en inglés y en la gestión de tareas comunes, pueden fallar con guiones no romanos o al adentrarse en territorios desconocidos en ciertos campos técnicos. OpenAI es plenamente consciente de estas limitaciones y aconseja a los usuarios que eviten depender de ChatGPT para tareas que conlleven riesgos significativos sin una verificación adecuada.
Hacia el Infinito y Más Allá: Expansión en el Horizonte
Estas capacidades pioneras son solo el comienzo. Las características de voz e imagen de ChatGPT pronto estarán disponibles para los usuarios de las categorías Plus y Empresa, con planes para extender estas ofertas a otros grupos de usuarios y desarrolladores en el futuro. Esto no es solo una actualización; es un salto hacia la convergencia entre el mundo humano y el de la IA, lo que nos permite interactuar de manera más profunda e intuitiva con nuestros contrapartes digitales.
Como dijo Albert Einstein: «El verdadero signo de la inteligencia no es el conocimiento, sino la imaginación». En el caso de ChatGPT, es una fusión de ambos; el mundo conocido se ha vuelto un poco más navegable y el mundo imaginado es un poco más tangible.
Trace un rumbo con estas formas más profundas de interactuar con ChatGPT. Descubra el potencial y explore los límites. A medida que ingresamos a esta nueva era de la IA, que la línea entre la experiencia humana y el reino digital continúe difuminándose.
Este informe se basa en el anuncio oficial de OpenAI. Puede obtener más información sobre las estrategias de seguridad de OpenAI, la colaboración con Be My Eyes y otros detalles en su publicación original aquí.