Harmonizing Life Essentials on the Canvas of Curiosity

OpenAIがChatGPTの感覚知覚を拡張:音声とビジョン統合の可能性が広がる


技術の世界で驚くべき進化が進行中です。OpenAIは、ChatGPTというAIモデルを、これまでにない方法で世界を知覚し、相互作用させることを可能にしています。声を持つ能力と画像認識能力を組み合わせ、OpenAIは人工知能との関わり方を変革しています。この飛躍的な進化について詳しく掘り下げ、AIとの日常的な出会いに与える変革的な影響を理解することが肝要です。

「海には人間の錨が届かない深さがあるように、宇宙には人間の檣が信号を送れない高みがある」とヴィクトル・ユーゴーは言いました。しかし、この新しい展開により、私たちは少しだけ深く錨を下ろし、マストを高く掲げるようです。

対話の再創造:音声コンパニオンシップの力

常に手がいっぱいであるか、人間の声のリズムに慣れ親しんでいる人にとって、OpenAIはこれまでの最先端の機能、ChatGPTとの音声対話を発表しました。そうです、正確に読み取りました。声を使って往復の会話ができるようになり、これは現実に完全に収まる未来派のコンセプトです。

この音の革命を体験するには、モバイルアプリの[設定] > [新機能]に移動し、声での会話をオプトインします。右上隅にあるヘッドフォンアイコンをタップし、5つの異なる音声パーソナリティから好みの声を選択できます。

これらの会話の背後にある交響的な知能を駆使して、OpenAIのテキストから音声への変換モデルが、わずかなテキストの断片から驚くほど人間らしい音声を生成します。これにはOpenAIのオープンソース音声認識システムであるWhisperが協力し、話された言葉をテキスト形式に変換します。

このサンプル会話の美しい語りを聞いてみてください:


「かつて、穏やかな森に、リラというふわふわの母猫がいました。ある晴れた日、彼女は古いオークの木の陰で、彼女の遊び好きな子猫、マイロと一緒にくつろいでいました。

リラは優しく、柔らかな声で言いました。「マイロ、もうすぐ新しい遊び仲間ができるわ。」

マイロの耳がピンと立ち、興味津々で言いました。「新しい遊び仲間?」

リラはプルプルと鳴きました。「はい、妹ができるのよ。」

マイロの目がわくわくして広がりました。「妹?私みたいにしっぽを追いかけるのかな?」

リラは笑いました。「ああ、彼女にも彼女なりの癖があるわ。君が彼女に教えてあげるでしょう?」

マイロは喜んで頷き、すでに彼らが共有する冒険を夢見ていました。」

考えとピクセルの交換:ChatGPTのビジョン

言葉だけでは瞬間を十分に捉えられないことがあります。今、ChatGPTに画像を示し、その意味を解き明かすことができます。頑固な家電製品のトラブルシューティング、冷蔵庫の在庫からの潜在的なレシピの探索、仕事での複雑なグラフの分析などがこれまで以上に簡単になりました。

画像または複数の画像に関する議論を始めるには、モバイルアプリの[写真]ボタンをタップするだけです。画像の特定の四半期に焦点を当てたい場合は、モバイルアプリの描画ツールを活用してください。

舞台裏では、画像の知識を発見する力は、多モードのGPT-3.5およびGPT-4によって提供され、テキストから視覚的な要素を含むさまざまな画像、写真、スクリーンショット、テキストと視覚的な要素が組み合わさったドキュメントまで対応する言語推論スキルを示しています。

安全に実装し、段階的にスケーリング

安全かつ有益な人工汎用知能(AGI)を構築するため、OpenAIはこれらの進化を段階的に展開しています。これは、ユーザー価値、学習、革新速度、安全性を微妙にバランスさせた戦略です。特に音声とビジョンの変更を伴うシステムの強化においては、このアプローチが非常に重要です。

懸念の対処:声の幻想と視覚的な幻覚

どんな技術にも課題が存在します。この技術が合成声を生成する可能性は、疑問の余地のある目的で声を操る悪意ある行為者を可能にする可能性を秘めています。

OpenAIは、特定のユースケースでこれらの機能を意識的に活用し、Spotifyなどのパートナーと協力しています。例えば、彼らのVoice Translation機能は、ポッドキャスターの言語的なアウトリーチをシームレスに拡大することを目指しています。

ビジョンの能力に向かう道も同様に困難でした。AIが人々について幻想を抱く可能性、特に高リスクの領域での解釈のリスクはすべて妥当な懸念です。さまざまな評価者グループとのさまざまなテストフェーズを経て、OpenAIは受け入れ可能な使用基準を確立しました。

ビジョン:エンパワーメントのツール

OpenAIは、プライバシーに侵害することなくビジョンを提供する機能として存在するように取り組んでいます。ユーザーフィードバックと実世界での使用は、OpenAIがこれらのセキュリティを強化し、その有用性を維持するのに不可欠です。

「Be My Eyes」などの組織との緊密な協力を通じて、OpenAIはAIビジョンが日常の状況でどれだけ価値があるか、またその制約がどこにあるかを学んでいます。

モデルの制限を認識:信頼の前提

特定のタスクをAIに委ねることは、確かにこのデジタル時代における賢明な行動です。ただし、現在のモデルには制限があります。英語のテキストを書き写すことや一般的なタスクの管理には優れているかもしれませんが、非ラテン文字のスクリプトや特定の技術分野の未知の領域に踏み込む際には、認証が不足している可能性があります。OpenAIはこれらの制限について認識しており、適切な検証なしに重大なリスクを伴うタスクにChatGPTを依存することを推奨していません。

未来への展望:可能性の拡大

これらの先駆的な機能は始まりに過ぎません。ChatGPTの音声および画像の機能は、近くPlusおよびEnterpriseユーザー向けに提供され、将来他のユーザーグループや開発者にも提供される予定です。これは単なるアップグレードではなく、人間とAIの世界との間のギャップを狭め、私たちがデジタルな相手とより深く直感的に関わることを可能にする飛躍です。

アルバート・アインシュタインが言ったように、「真の知恵の印は知識ではなく想像力です。」ChatGPTの場合、それは両方の融合です。知っている世界が少し探索しやすくなり、想像された世界が少し手触りのあるものになりました。

これらの新しい、より深いChatGPTとのインタラクション方法を探索し、潜在能力を解き明かし、新しいAIの時代に踏み入る際、人間の体験とデジタルの領域の境界が引き続き曖昧になることを願っています。

このレポートは公式のOpenAIの発表に基づいています。OpenAIの安全対策、’Be My Eyes’との協力、およびその他の詳細については、元の投稿で詳しく読むことができます。