Harmonizing Life Essentials on the Canvas of Curiosity

OpenAI Memperluas Kemampuan Persepsi Sensorik ChatGPT: Integrasi Suara dan Visi di Horison


Sebuah evolusi luar biasa sedang berkembang di ranah teknologi. OpenAI memperkuat model kecerdasan buatan ChatGPT untuk memahami dan berinteraksi dengan dunia seperti belum pernah terjadi sebelumnya. Dengan menanamkan kemampuan baru untuk menyuarakan suara dan memahami gambar, OpenAI sedang mengubah cara kita berinteraksi dengan kecerdasan buatan. Kita perlu mengupas lapisan-lapisan lompatan kuantum ini dan memahami implikasi transformatifnya bagi interaksi sehari-hari kita dengan kecerdasan buatan.

Seperti yang dikatakan Victor Hugo, “Sama seperti ada kedalaman di lautan yang tidak bisa dicapai oleh jangkar manusia,” demikian pula ada tingkatan di alam semesta yang tidak bisa dijangkau oleh manusia. Namun, dengan peluncuran baru ini, kita tampaknya membenamkan jangkar kita sedikit lebih dalam, menaikkan tiang layar kita sedikit lebih tinggi.

Reinventing Dialog: Keajaiban Kepemimpinan Suara

Bagi mereka yang selalu sibuk atau lebih memilih irama suara manusia yang nyaman, OpenAI telah memperkenalkan fitur paling avant-garde hingga saat ini, obrolan suara dengan ChatGPT. Ya, Anda membacanya dengan benar. Sekarang Anda bisa berbicara bolak-balik menggunakan suara, sebuah konsep fiksi ilmiah yang kini nyaman dalam kenyataan.

Untuk merasakan revolusi auditif ini, arahkan ke Pengaturan > Fitur Baru di aplikasi seluler dan pilih untuk terlibat dalam percakapan suara. Ketuk ikon headphone di sudut kanan atas dan pilih suara yang Anda sukai dari lima persona suara yang dirancang secara unik.

Dibalik kecerdasan simfoni yang melandasi percakapan ini adalah model teks-ke-suara OpenAI, yang menghasilkan audio yang sangat manusiawi dari fragmen teks semata. Ini dibantu oleh telinga yang ulung dari Whisper, sistem pengenalan suara open-source OpenAI, yang mentranskripsi kata-kata yang Anda ucapkan ke dalam format teks.

Dengarkan hasil render yang merdu dalam percakapan contoh berikut:

“Di suatu hutan yang tenang, ada seekor kucing ibu berbulu lembut bernama Lila. Suatu hari yang cerah, dia berpelukan dengan anak kucing nakalnya, Milo, di bawah naungan pohon ek tua.

“Milo,” Lila memulai, suaranya lembut dan lembut, “kamu akan segera punya teman bermain baru.”

Telinga Milo terangkat, penuh rasa ingin tahu. “Teman bermain baru?”

Lila berderik, “Ya, adik perempuan.”

Milo melebarkan matanya dengan penuh semangat. “Adik perempuan? Apakah dia akan mengejar ekor seperti saya?”

Lila tertawa. “Oh, dia akan punya keunikan sendiri. Kamu akan mengajarnya, bukan?”

Milo mengangguk dengan semangat, sudah bermimpi tentang petualangan yang akan mereka bagi.”

Bertukar Pikiran dan Piksel: Visi ChatGPT

Seringkali, kata-kata sendirian tidak dapat sepenuhnya menangkap sebuah momen. Sekarang, Anda dapat menunjukkan gambar kepada ChatGPT dan mengungkap maknanya. Memecahkan masalah perangkat yang bandel, menjelajahi resep potensial dari inventaris kulkas Anda, atau menganalisis grafik kompleks untuk pekerjaan menjadi lebih sederhana.

Cukup ketuk tombol foto untuk memulai percakapan tentang gambar atau sekelompok gambar. Jika Anda ingin fokus pada salah satu kuadran gambar, gunakan alat gambar di aplikasi seluler.

Di balik layar, pengungkapan kebijaksanaan gambar didukung oleh GPT-3.5 dan GPT-4 multimodal, yang menunjukkan keterampilan penalaran bahasa yang sekarang dapat meliputi berbagai gambar, dari foto hingga tangkapan layar, hingga dokumen yang berisi campuran teks dan visual.

Implementasi dengan Aman, Skala Bertahap

Dalam upaya membangun Kecerdasan Buatan Umum yang aman dan bermanfaat, OpenAI menerapkan kemajuan ini secara bertahap. Ini adalah strategi yang cermat, dengan seimbang antara nilai pengguna, kecepatan inovasi, pembelajaran, dan keamanan. Pendekatan ini menjadi sangat penting ketika peningkatan sistem melibatkan transformasi suara dan visi.

Mengatasi Kekhawatiran: “Suara Khayalan” dan “Halusinasi Visual”

Seperti halnya dengan setiap teknologi, akan ada tantangan. Potensi teknologi ini untuk menciptakan suara sintetis membuka kotak Pandora kemungkinan, sambil memungkinkan pihak yang jahat untuk memainkan suara untuk tujuan yang meragukan.

OpenAI dengan sadar menggunakan kemampuan ini untuk kasus penggunaan tertentu dan berkolaborasi dengan mitra seperti Spotify. Misalnya, fitur Terjemahan Suara mereka bertujuan untuk memperluas jangkauan linguistik para podcaster secara mulus.

Perjalanan menuju kemampuan visi juga penuh tantangan. Potensi AI untuk berhalusinasi tentang orang-orang, dan risiko interpretasinya, terutama dalam domain berisiko tinggi, adalah kekhawatiran yang sah. Berbagai tahap pengujian dengan kelompok evaluator yang beragam membantu OpenAI menghasilkan norma penggunaan yang dapat diterima.

Visi: Sebuah Alat untuk Pemberdayaan

OpenAI telah mengambil langkah-langkah untuk memastikan visi menjadi fitur yang membantu tanpa melanggar privasi. Umpan balik pengguna dan penggunaan dunia nyata sangat penting untuk membantu OpenAI menyempurnakan perlindungan ini sambil tetap mempertahankan fungsinya.

Kolaborasi erat dengan organisasi seperti ‘Be My Eyes’, aplikasi bantu bagi pengguna tunanetra dan penglihatan rendah, membantu OpenAI memahami lebih banyak tentang bagaimana visi kecerdasan buatan dapat bernilai dalam situasi sehari-hari, serta di mana keterbatasannya.

Mengakui Keterbatasan Model: Pendahulu Kepercayaan

Mengandalkan Kecerdasan Buatan dengan tugas-tugas khusus memang adalah tindakan yang cerdas di era digital ini. Namun, model-model saat ini memiliki keterbatasan. Meskipun mereka mungkin unggul dalam mentranskripsi teks bahasa Inggris dan mengelola tugas-tugas sehari-hari, mereka dapat gagal dengan aksara non-Romawi atau ketika menjelajahi wilayah teknis tertentu yang belum dikenal. OpenAI sangat sadar dan transparan tentang keterbatasan ini dan menyarankan pengguna untuk tidak mengandalkan ChatGPT untuk tugas-tugas yang membawa risiko signifikan tanpa verifikasi yang tepat.

Kemampuan bersejarah ini hanyalah awal. Fitur suara dan gambar ChatGPT akan segera tersedia bagi pengguna Plus dan Enterprise, dengan rencana untuk memperluas penawaran ini ke kelompok pengguna dan pengembang lainnya di masa depan. Ini bukan hanya peningkatan; ini adalah lompatan menuju penyatuan kesenjangan antara dunia manusia dan kecerdasan buatan, memungkinkan kita berinteraksi lebih mendalam dan intuitif dengan rekan digital kita.

Seperti yang dikatakan Albert Einstein: “Tanda sejati kecerdasan bukanlah pengetahuan melainkan imajinasi.” Dalam kasus ChatGPT, ini adalah gabungan keduanya; dunia yang dapat dikenali baru saja menjadi lebih mudah dinavigasi, dan dunia yang terbayangkan, sedikit lebih terasa nyata.

Tetapkan tujuan dengan cara-cara baru yang lebih mendalam ini untuk berinteraksi dengan ChatGPT. Ungkapkan potensinya dan navigasi batasnya. Saat kita memasuki era baru Kecerdasan Buatan, semoga garis antara pengalaman manusia dan ranah digital terus kabur.