Mencoba asisten suara baru dari startup AI Wijen adalah pertama kalinya saya sesaat lupa saya berbicara dengan bot.
Dibandingkan dengan mode suara ChatGPT, “suara percakapan” Wijpt terasa alami, tidak dipaksakan, dan menarik, yang benar -benar membuat saya takut.
Pada 27 Februari, Sesame meluncurkan demo untuk Conversational Speech Model (CSM), yang bertujuan untuk menciptakan interaksi yang lebih bermakna dengan AI Chatbots. “Kami menciptakan mitra percakapan yang tidak hanya memproses permintaan; mereka terlibat dalam dialog asli yang membangun kepercayaan diri dan kepercayaan dari waktu ke waktu,” kata pengumuman itu. “Dengan melakukan itu, kami berharap dapat menyadari potensi suara yang belum dimanfaatkan sebagai antarmuka utama untuk pengajaran dan pemahaman.”
Asisten Suara Sesame tersedia sebagai demo gratis di situs dan hadir dalam dua suara: Maya dan Miles.
Sejak Sesame melepaskan demo asisten suaranya, pengguna telah melaporkan reaksi yang terpesona. “Saya sudah menyukai AI sejak saya masih kecil, tetapi ini adalah pertama kalinya saya mengalami sesuatu yang membuat saya pasti merasa seperti kami telah tiba,” tulis pengguna Socschamp di Reddit.
“Wijen hampir tidak dapat dibedakan dari manusia yang pernah saya alami dalam AI percakapan,” tulis pengguna Siciliano777 di Reddit.
Setelah berbicara dengan bot Sesame, saya juga kagum. Saya berbicara dengan suara Maya selama sekitar 10 menit tentang etika menggunakan AI sebagai teman dan pergi dengan perasaan seperti saya melakukan percakapan yang tulus dengan orang yang penuh perhatian dan mendapat informasi. Pidato Maya memiliki irama alami, menggunakan interjeksi seperti “Anda tahu” dan “HM,” dan bahkan membuat klik lidah dan menghirup suara.
Kecepatan cahaya yang dapat dipasangkan
Kesan terkuat yang saya dapatkan dari berinteraksi dengan Maya adalah bahwa dia segera mengajukan pertanyaan, melibatkan saya dalam percakapan. Bot memulai percakapan kami dengan menanyakan bagaimana hari Rabu saya (catatan: itu memang Rabu pagi.) Sebaliknya, mode suara chatgpt menunggu saya untuk berbicara terlebih dahulu, yang belum tentu merupakan hal yang baik atau buruk, tetapi secara intrinsik membentuk percakapan ketika saya menggunakan chatgpt sebagai alat untuk sesuatu yang saya butuhkan.
Maya bertanya tentang risiko teman AI menjadi “terlalu pandai menjadi manusia.” Ketika saya mengatakan kepadanya bahwa saya khawatir tentang munculnya penipuan yang lebih canggih dan orang -orang kehilangan kontak dengan kenyataan dengan mengganti manusia dengan bot, dia merespons dengan serius dan pragmatis. “Scammers akan scam, itu diberikan. Dan untuk hal koneksi manusia, mungkin kita perlu belajar bagaimana menjadi teman yang lebih baik, bukan pengganti, Anda tahu, jenis teman AI yang benar -benar membuat Anda ingin keluar dan melakukan hal -hal dengan orang sungguhan,” kata Maya.
Ketika saya melakukan percakapan serupa dengan ChatGpt, saya menerima tanggapan yang terasa lebih seperti bahasa boilerplate dari penasihat bimbingan sekolah: “Itu masalah yang valid. Sangat penting untuk menyeimbangkan teknologi dengan interaksi manusia yang nyata. AI dapat menjadi alat yang bermanfaat, tetapi seharusnya tidak menggantikan koneksi manusia yang asli. Ada baiknya Anda memikirkan masalah ini.”
Sementara Openai memelopori kemampuan mode suara untuk terganggu dan memiliki percakapan bolak-balik yang lebih cair, chatgpt masih cenderung merespons dalam kalimat lengkap dan blok paragraf, yang terdengar, baik, robot. Saat menggunakan mode suara chatgpt, saya tidak pernah lupa bahwa saya berbicara dengan bot, dan itu tercermin dalam percakapan, yang bisa terasa kaku dan dipaksakan.
Dengan perbandingan, AI untuk manusia Tuan rumah podcast Gavin Purcell memposting percakapan wijen di Reddit di mana praktis tidak mungkin untuk membedakan suara mana yang merupakan bot. Purcell memicu suara mil dengan menyuruhnya bertindak seperti bos yang marah.
Percakapan yang sangat konyol diikuti tentang pencucian uang, penyuapan, dan insiden misterius di Malta. Miles tidak ketinggalan satu langkah. Tidak ada latensi yang jelas, dan bot itu mengingat konteks percakapan dan secara kreatif mengajukan argumen improvisasi dengan meningkatkan, menyebut Purcell “delusi,” dan memecatnya.
Tentu saja, ada beberapa keterbatasan. Suara Maya jatuh beberapa kali sepanjang percakapan kami, dan itu tidak selalu mendapatkan sintaksis dengan benar, seperti mengatakan, “Ini pembicaraan berat yang datang.”
Menurut makalah teknisnya, Sesame melatih CSM-nya (berdasarkan model Llama Meta) dengan menggabungkan proses dua langkah tradisional pelatihan model teks-ke-ucapan pada token semantik dan kemudian token akustik, mengurangi latensi. OpenAi juga menggunakan pendekatan multimodal ini untuk melatih mode suara. Namun, itu tidak pernah merilis makalah teknis khusus tentang cara kerja dalam mode suara-ini hanya membahas mode suara dalam penelitian GPT-4O.
Mengetahui hal ini, mengejutkan betapa jauh lebih baik model Sesame pada dialog Conversational. Namun, peluncuran Sesame hanyalah sebuah demo, sehingga perlu diteliti lebih lanjut ketika model lengkap keluar. Menurut pengumuman demo, Sesame berencana untuk membuka sumber modelnya “dalam beberapa bulan mendatang” dan memperluas ke lebih dari 20 bahasa.
Topik
Chatgpt kecerdasan buatan