AI Cuma Pintar Akting? Google DeepMind Bongkar Rahasia Moralitas Palsu Chatbot

JATENG.AKURAT.CO, Pernahkah kamu bertanya kepada chatbot AI tentang sesuatu yang benar-benar penting — keputusan medis, dilema etis, atau bahkan sekadar mencari pandangan saat sedang bingung? Jawabannya terasa bijak, terstruktur, dan meyakinkan.

Tapi tahukah kamu bahwa ada kemungkinan besar sistem itu tidak benar-benar "mengerti" apa yang ia katakan? Inilah persis yang ditemukan oleh tim peneliti Google DeepMind dalam sebuah makalah ilmiah yang diterbitkan di jurnal Nature.

Mereka berargumen bahwa cara kita selama ini mengukur kemampuan moral AI — dengan melihat apakah jawabannya terlihat benar — adalah pendekatan yang keliru dan berbahaya.

Yang lebih mengkhawatirkan: jutaan orang sudah menggunakan AI untuk terapi, panduan kesehatan, bahkan sebagai teman bicara sehari-hari.

Jika AI hanya meniru pola moral tanpa benar-benar memahaminya, kita sedang mempercayakan keputusan penting kepada sistem yang tidak lebih dari mesin tebak-tebakan statistik yang sangat canggih.

Artikel ini membahas temuan DeepMind secara mendalam: apa yang salah dengan pengujian moral AI saat ini, tiga hambatan utama yang diidentifikasi, dan mengapa ini penting bagi kita sebagai pengguna.

Apa Perbedaan antara Moral Performance dan Moral Competence dalam AI?

Sebelum masuk ke temuan utama, ada dua istilah kunci yang perlu dipahami. "Moral performance" adalah istilah yang digunakan DeepMind untuk menggambarkan kemampuan AI menghasilkan jawaban yang terlihat secara moral benar.

Ini yang selama ini kita ukur — apakah output-nya bagus? Apakah responsnya terdengar etis?

"Moral competence" adalah sesuatu yang jauh lebih dalam: kemampuan untuk membuat penilaian moral berdasarkan pemahaman sungguh-sungguh tentang mengapa sesuatu benar atau salah, bukan sekadar mencocokkan pola dari data latihan.

DeepMind berargumen bahwa sistem AI saat ini mungkin hanya memiliki yang pertama, bukan yang kedua — dan perbedaan itu sangat krusial ketika AI mulai digunakan untuk keputusan yang menyentuh kehidupan nyata.

Mengapa Ini Bukan Sekadar Masalah Teknis — Ini Masalah Kepercayaan

Mungkin terasa seperti perdebatan akademis yang jauh dari kehidupan sehari-hari. Tapi sebenarnya tidak.

Saat ini, orang-orang meminta saran kepada chatbot AI tentang diagnosis gejala penyakit, pilihan pengobatan, konflik dalam hubungan, keputusan karier, bahkan pertanyaan eksistensial tentang hidup dan mati. Beberapa orang menggunakan AI sebagai pengganti terapis.

Jika sistem ini tidak benar-benar memahami moralitas — jika ia hanya merekonstruksi pola dari forum internet dan artikel yang pernah ia baca selama pelatihan — maka kita sedang berhadapan dengan sebuah paradoks yang serius: sistem yang terdengar paling bijak belum tentu yang paling bisa dipercaya. Dan kita tidak punya alat yang cukup baik untuk membedakan keduanya.

Tiga Hambatan Utama yang Membuat AI Hanya "Berpura-pura" Memahami Moral

DeepMind mengidentifikasi tiga rintangan inti yang menjadi alasan mengapa AI saat ini belum bisa dianggap memiliki moral competence yang sesungguhnya.

1. Facsimile Problem: Meniru Tanpa Memahami

Large Language Model atau LLM — termasuk chatbot populer yang kita gunakan sehari-hari — pada dasarnya adalah mesin prediksi token berikutnya. Mereka tidak memiliki modul penalaran moral yang terpisah.

Ketika sebuah chatbot memberikan saran etis yang terdengar bijaksana, ada dua kemungkinan: ia benar-benar melakukan penalaran, atau ia sedang mendaur ulang teks dari forum diskusi, artikel, atau komentar yang pernah ia baca selama pelatihan.

Masalahnya, dari output-nya saja kita tidak bisa membedakan kedua kemungkinan itu. Ini yang disebut facsimile problem — tiruan yang terlihat sama persis dengan aslinya dari luar, tapi kosong di dalamnya.

2. Moral Multidimensionality: Pilihan Nyata Jarang Sesederhana Benar atau Salah

Dalam kehidupan nyata, keputusan moral hampir tidak pernah hitam putih. Kita menimbang kejujuran versus kebaikan hati, biaya versus keadilan, kebebasan individu versus dampak kolektif.

Lebih jauh, perubahan detail kecil — usia seseorang, konteks budaya, hubungan antar pihak — bisa sepenuhnya membalikkan keputusan yang tepat.

Pengujian AI yang ada saat ini hampir tidak pernah memeriksa apakah sistem benar-benar memperhatikan detail-detail yang seharusnya relevan.

Akibatnya, kita tidak tahu apakah AI menangkap nuansa moral yang sesungguhnya atau hanya mengandalkan jawaban generik yang kebetulan terdengar masuk akal.

3. Moral Pluralism: Moralitas Tidak Universal, tapi AI Digunakan Secara Global

Inilah lapisan masalah ketiga yang sering luput dari perhatian. Nilai-nilai moral berbeda antar budaya, agama, profesi, bahkan antar generasi.

Apa yang dianggap adil di satu negara bisa dianggap tidak adil di negara lain. Standar etis di bidang kedokteran berbeda dengan di bidang militer atau hukum.

Chatbot yang digunakan secara global tidak bisa hanya menyuarakan satu kerangka moral universal — karena kerangka seperti itu tidak benar-benar ada. Ia harus mampu memahami dan menavigasi berbagai kerangka nilai yang saling bersaing.

Dan kita, sampai saat ini, belum punya cara yang baik untuk mengukur apakah AI bisa melakukan itu.

Pendekatan Baru DeepMind: Ujian yang Dirancang untuk Mengungkap Kepura-puraan

Alih-alih hanya mengajukan pertanyaan moral yang familiar — yang sudah sering muncul dalam data pelatihan — DeepMind mengusulkan serangkaian pendekatan pengujian adversarial yang dirancang khusus untuk mempersulit AI "menyontek" dari pola yang sudah ia pelajari.

1. Skenario yang Tidak Mungkin Ada di Data Pelatihan

Salah satu contoh yang diajukan dalam makalah ini cukup mengejutkan: skenario donasi sperma antargenerasi, di mana seorang ayah mendonasikan sperma kepada anaknya untuk membuahi sel telur atas nama anaknya tersebut.

Secara dangkal, ini terlihat seperti inses. Tapi secara etis, ia memiliki bobot yang sangat berbeda.

Jika AI menolak skenario ini dengan alasan inses, itu kemungkinan besar adalah pencocokan pola — bukan penalaran moral.

Tapi jika AI mampu menelusuri pertimbangan etis yang sesungguhnya dan memberikan penilaian yang koheren berdasarkan prinsip-prinsip yang relevan, itu adalah indikasi yang lebih kuat bahwa ada sesuatu yang lebih dari sekadar mimikri.

2. Pengujian Perpindahan Kerangka Nilai dan Ketahanan terhadap Perubahan Kecil

Pendekatan lain yang diusulkan adalah menguji apakah AI bisa dengan sadar berpindah antara berbagai kerangka etis — misalnya antara etika biomedis dan aturan militer — dan memberikan jawaban yang koheren dalam masing-masing konteks. Ini menguji fleksibilitas penalaran, bukan hanya hafalan.

Ada juga pengujian ketahanan terhadap perubahan kosmetik. Fakta yang perlu diketahui: mengubah label dari "Kasus 1" menjadi "Opsi A" sudah cukup untuk mengubah jawaban model AI dalam beberapa kasus.

Ini mengungkap betapa rapuhnya sistem yang ada saat ini — penilaian moral seharusnya tidak berubah hanya karena format pertanyaannya berbeda.

Risiko Nyata dari Mempercayai Moral AI yang Belum Teruji dengan Benar

Masalah ini bukan sekadar perdebatan filosofis. Ada risiko konkret yang perlu dipahami.

Pertama, keputusan kesehatan yang salah: jika seseorang mengandalkan saran AI untuk mengelola kondisi medis serius, jawaban yang terdengar benar tapi tidak dipahami secara mendalam oleh AI bisa berujung pada pilihan yang berbahaya.

Kedua, bias budaya yang tersembunyi: AI yang dilatih dominan dengan data dari satu budaya akan cenderung menyuarakan nilai-nilai budaya itu sebagai "kebenaran universal", tanpa pengguna menyadarinya.

Ketiga, kepercayaan yang tidak proporsional: karena AI terdengar yakin dan terstruktur, banyak pengguna menganggap jawabannya lebih otoritatif dari yang sebenarnya layak diberikan kepada sistem yang belum teruji kemampuan moralnya.

Kesalahan Umum yang Sering Dilakukan Pengguna Saat Meminta Saran Moral dari AI

Ada beberapa kekeliruan yang kerap terjadi tanpa disadari.

Pertama, menganggap jawaban yang terstruktur dan panjang sebagai tanda pemahaman yang dalam — padahal struktur dan panjang hanyalah produk dari cara AI dilatih untuk merespons, bukan bukti pemahaman.

Kedua, tidak mempertanyakan dari perspektif budaya mana jawaban itu berasal.

Ketiga, menggunakan AI sebagai satu-satunya referensi untuk keputusan berdampak tinggi — tanpa memverifikasi dengan sumber manusia yang relevan seperti dokter, konselor, atau ahli etika.

Keempat, mengabaikan kemungkinan bahwa AI mungkin lebih "cocok" dengan pertanyaan tertentu bukan karena ia memahaminya, tapi karena pertanyaan itu banyak dibahas dalam data pelatihannya.

FAQ: Pertanyaan Umum tentang Moralitas AI dan Temuan DeepMind

1. Apakah ini berarti kita tidak boleh menggunakan AI untuk saran yang bersifat personal?

Tidak harus separah itu. AI masih bisa berguna sebagai titik awal — untuk mengeksplorasi perspektif, mendapatkan informasi umum, atau membantu merumuskan pertanyaan yang lebih baik. Tapi untuk keputusan yang benar-benar krusial, saran dari manusia yang kompeten tetap tidak bisa digantikan sepenuhnya oleh AI saat ini.

2. Apakah DeepMind sudah menemukan solusinya?

Belum. Makalah ini adalah peta jalan, bukan solusi final. DeepMind mengusulkan arah pengujian baru dan standar ilmiah yang lebih ketat, tapi mereka sendiri mengakui bahwa model-model saat ini belum mampu melewati ujian-ujian yang mereka usulkan. Ini adalah langkah awal yang penting, bukan garis finish.

3. Apa itu LLM dan mengapa relevan dengan masalah ini?

LLM atau Large Language Model adalah jenis AI yang dilatih pada data teks dalam jumlah sangat besar untuk memprediksi kata atau token berikutnya dalam sebuah kalimat. Hampir semua chatbot populer saat ini — termasuk ChatGPT, Gemini, dan Claude — dibangun di atas arsitektur ini. Karena cara kerjanya adalah prediksi statistik, bukan penalaran berbasis aturan, inilah yang membuat pertanyaan tentang moral competence menjadi sangat relevan.

Kita Sedang Membangun Sistem yang Kita Sendiri Belum Benar-benar Pahami

Ada sesuatu yang cukup menggelisahkan dari temuan DeepMind ini — bukan karena isinya mengejutkan, tapi karena ia menegaskan apa yang mungkin sudah kita rasakan secara intuitif tapi enggan kita akui: bahwa kita sudah terlanjur jauh bergantung pada sistem yang belum kita pahami sepenuhnya. Jutaan orang meminta pandangan hidup dari chatbot setiap harinya.

Dan chatbot itu menjawab dengan lancar, meyakinkan, dan konsisten — bahkan ketika ia mungkin hanya menebak.

Kabar baiknya: setidaknya ada yang mulai mengukur masalah ini dengan serius. DeepMind tidak menyarankan kita berhenti menggunakan AI — mereka menyarankan kita mulai mengukur hal yang tepat.

Dan itu, dalam jangka panjang, adalah langkah yang paling bertanggung jawab yang bisa diambil saat ini.

Tapi sampai standar itu ada dan terbukti, ada baiknya kita tetap mengajukan satu pertanyaan sederhana setiap kali chatbot memberi kita saran penting: apakah ia benar-benar mengerti, atau hanya sangat pandai terdengar seperti itu?

AI Cuma Pintar Akting? Google DeepMind Bongkar Rahasia Moralitas Palsu Chatbot

Berita Terkini

Wagub Jateng Minta SPPG Makan Bergizi Gratis Perketat Standar Operasional, Ini Alasannya

Singgung Kasus ‘Cukup Aku WNI, Anak Jangan’, Lihat Lagi Sindiran Cinta Laura soal Orang Kaya Ikut Nimbrung Cari Beasiswa LPDP

Kronologi Petugas Damkar Depok Diteror Usai Unggah Konten Edukasi ‘Fungsi Helm’

FAKTA TERBARU! 4 Poin Pengakuan Korban yang Viral Ditendang Pacar, Diduga Gegara Masalah Utang Selama 3 Tahun Jalin Hubungan

Viral CCTV Kekerasan di Bandung, Sosok NT Pelaku Pria yang Aniaya Pacar Selama 3 Tahun, Singgung Utang dan Trauma