Harmonizing Life Essentials on the Canvas of Curiosity

Открытый ИИ расширяет способности ChatGPT: интеграция голоса и видения на горизонте


Удивительная эволюция разворачивается в технологической сфере. OpenAI усиливает свою модель искусственного интеллекта, ChatGPT, чтобы воспринимать и взаимодействовать с миром, как никогда ранее. Внедряя новые возможности для общения голосом и анализа изображений, OpenAI трансформирует наше взаимодействие с искусственным интеллектом. Важно раскрыть суть этого квантового скачка и понять трансформационные последствия для наших повседневных встреч с ИИ.

«Как и в океане есть глубины, которые человеческий якорь не может достичь», сказал Виктор Гюго, «так и во Вселенной есть высоты, которые человеческий мачта не может достичь.» Но с этим новым обновлением кажется, что мы опускаем якорь немного глубже и поднимаем мачту немного выше.

Пересматривая диалоги: Сила голосового общения

Для тех, кто постоянно занят или предпочитает уютный ритм человеческой речи, OpenAI представила свою самую передовую функцию до сих пор — голосовой чат с ChatGPT. Да, вы правильно прочитали. Теперь вы можете вести диалоги с использованием голоса, научная фантастика теперь комфортно обрела реальность.

Чтобы испытать эту слуховую революцию, перейдите в меню «Настройки» > «Новые возможности» в мобильном приложении и выберите голосовые разговоры. Нажмите на значок наушников в верхнем правом углу и выберите предпочтительный голос из пяти индивидуально созданных звуковых обликов.

За симфоническим интеллектом, лежащим в основе этих разговоров, стоит текстовая речевая модель OpenAI, которая создает удивительно человеческое аудио из крошечных фрагментов текста. Ей помогают умелые «уши» Whisper, системы распознавания речи с открытым исходным кодом от OpenAI, которые транскрибируют ваши слова в текстовый формат.

Послушайте этот мелодичный диалог в примере:

«Когда-то в спокойной чаще леса жила пушистая мама-кошка по имени Лила. В один солнечный день она уютно устроилась со своим игривым котенком Мило в тени старого дуба.

«Мило», начала Лила, ее голос был мягким и нежным, «у тебя скоро появится новый товарищ».

Уши Мило поднялись, и он был любопытен. «Новый товарищ?»

Лила мурлыкнула: «Да, младшая сестренка».

Глаза Мило расширились от восторга. «Сестренка? Она будет гоняться за хвостами, как я?»

Лила посмеялась. «О, у нее будут свои особенности. Ты научишь ей, не так ли?»

Мило с нетерпением кивнул, уже представляя себе приключения, которые они будут разделять.»

Обмен мыслями и пикселями: Видение ChatGPT

Часто слова одни не в состоянии полностью зафиксировать момент. Теперь вы можете показывать ChatGPT изображения и раскрывать их смысл. Устранение непослушного прибора, изучение потенциальных рецептов из содержимого вашего холодильника или анализ сложного графика для работы теперь стало проще.

Просто коснитесь кнопки фото, чтобы начать обсуждение изображения или набора изображений. Если вы хотите сосредоточиться на конкретном участке изображения, воспользуйтесь инструментом рисования в мобильном приложении.

За кадром раскрывания пиктурной мудрости стоят мультимодель GPT-3.5 и GPT-4, демонстрирующие навыки языкового мышления, которые теперь способны охватывать широкий спектр изображений, от фотографий до скриншотов, а также документов, содержащих смесь текста и визуальных элементов.

Реализация с осторожностью, постепенное масштабирование

В поисках создания искусственного общего интеллекта, который является и безопасным, и полезным, OpenAI внедряет эти усовершенствования постепенно. Это тщательная стратегия, которая тонко балансирует между пользовательской ценностью, скоростью обучения, инновациями и безопасностью. Этот подход становится особенно важным при усовершенствованиях системы, которые включают в себя функции голоса и видения.

Рассмотрение проблем: «Фантомные» голоса и «визуальные галлюцинации» Как и с любой технологией, здесь есть свои проблемы. Потенциал технологии создания синтетических голосов открывает Пандорин ящик возможностей, но при этом может дать возможность злоумышленникам использовать голоса для сомнительных целей.

OpenAI сознательно использует эти способности для конкретных случаев и сотрудничает с партнерами, такими как Spotify. Например, функция голосового перевода направлена на расширение языкового охвата подкастеров без прерываний.

Путь к возможностям видения также был усеян опасностями. Возможность ИИ галлюцинировать о людях и риска его интерпретаций, особенно в сферах с высокими ставками, представляют собой действительные проблемы. Различные тестирования с различными группами экспертов помогли OpenAI определить приемлемые нормы использования.

Видение: Инструмент для уполномочивания

OpenAI предприняла шаги для того, чтобы обеспечить, что функции видения существуют как инструмент, который помогает без нарушения конфиденциальности. Обратная связь пользователей и использование в реальном мире играют важную роль в том, как OpenAI совершенствует эти меры безопасности, сохраняя при этом их полезность.

Близкие сотрудничества с организациями, такими как «Be My Eyes», приложением-помощником для слепых и слабовидящих, помогают OpenAI узнать больше о том, как ИИ видения может быть полезным в повседневных ситуациях, а также ограничениях этой технологии.

Признание ограничений модели: Предпосылка для доверия

Доверение ИИ в специализированных задачах — это действительно разумное решение в этом цифровом веке. Однако у текущих моделей есть свои ограничения. В то время как они могут блеснуть в транскрибировании английского текста и выполнении обыденных задач, они могут показать неудовлетворительные результаты с нелатинскими письменами или в неизведанных областях в некоторых технических областях. OpenAI очень внимательно следит за этими ограничениями и рекомендует пользователям не полагаться на ChatGPT для выполнения задач с значительными рисками без должной проверки.

К бесконечности и далее: Расширение на горизонте

Эти передовые способности — это только начало. Возможности голоса и изображения ChatGPT скоро будут доступны пользователям Plus и Enterprise, с планами расширить предложения на другие группы пользователей и разработчиков в будущем. Это не просто обновление; это прыжок к сближению разрыва между миром человека и ИИ, позволяя нам взаимодействовать глубже и интуитивно с нашими цифровыми спутниками.

Как сказал Альберт Эйнштейн: «Истинный знак интеллекта — это не знание, а воображение». В случае ChatGPT это сочетание и того, и другого; знакомый мир стал более доступным, а мир воображения стал более осязаемым.

Определите путь с этими новыми, глубокими способами взаимодействия с ChatGPT. Раскройте потенциал и разгадайте ограничения. Когда мы вступаем в эту новую эру ИИ, пусть граница между человеческим опытом и цифровым миром продолжает размываться.

Этот отчет основан на официальном объявлении OpenAI. Вы можете узнать больше о подходах OpenAI к безопасности, сотрудничестве с Be My Eyes и других деталях в их оригинальной публикации здесь.