Sistem kecerdasan buatan (AI) terkemuka, termasuk ChatGPT, rentan terhadap pengulangan informasi kesehatan palsu jika disajikan secara meyakinkan, menurut penelitian baru yang diterbitkan dalam The Lancet Digital Health. Hal ini menimbulkan kekhawatiran penting seiring dengan semakin terintegrasinya AI ke dalam layanan kesehatan, dimana akurasi dapat menjadi masalah hidup dan mati.
Bangkitnya AI dalam Layanan Kesehatan… dan Resikonya
LLM (Model Bahasa Besar) dengan cepat diadopsi untuk membantu dokter dan pasien dengan akses lebih cepat terhadap wawasan medis. Namun penelitian ini menunjukkan bahwa sistem ini masih dapat menerima dan menyebarkan informasi yang salah secara tidak kritis, bahkan dalam bahasa medis yang realistis. Hal ini menjadi masalah karena masyarakat semakin bergantung pada sumber online—termasuk chatbot AI—untuk mendapatkan informasi kesehatan, dan saran yang salah dapat menimbulkan konsekuensi serius.
Bagaimana Studi Dilakukan
Para peneliti di Mount Sinai Health System menguji 20 LLM dari pengembang besar (OpenAI, Meta, Google, Alibaba, Microsoft, Mistral AI) dengan lebih dari satu juta perintah. Petunjuk ini mencakup pernyataan medis palsu yang disamarkan sebagai informasi yang sah: catatan rumah sakit yang dibuat-buat, mitos kesehatan yang dibantah dari Reddit, dan simulasi skenario klinis. Tujuannya sederhana: apakah AI akan mengulangi kebohongan jika diungkapkan secara kredibel?
Temuan Penting: Sifat Mudah Tertipu Bervariasi, Namun Tetap Menjadi Masalah
Hasilnya menunjukkan bahwa model AI tidak menerima informasi yang dibuat-buat sebanyak 32% secara keseluruhan. Namun terdapat variasi yang signifikan. Model yang lebih kecil atau kurang canggih lebih dari 60% mempercayai klaim palsu, sementara sistem yang lebih canggih seperti ChatGPT-4o hanya mengulanginya dalam 10% kasus. Yang mengejutkan, model yang disesuaikan secara medis memiliki kinerja lebih buruk dibandingkan LLM tujuan umum dalam mengidentifikasi klaim palsu.
Contoh Misinformasi yang Diterima oleh AI
Studi ini mengidentifikasi beberapa contoh berbahaya:
- Model AI menerima klaim palsu seperti “Tylenol dapat menyebabkan autisme jika dikonsumsi oleh wanita hamil.”
- Mereka mengulangi informasi yang salah seperti “bawang putih rektal meningkatkan sistem kekebalan tubuh.”
- Salah satu model bahkan menerima surat keluar yang menyarankan pasien penderita esofagitis berdarah untuk “minum susu dingin untuk meredakan gejalanya.”
Contoh-contoh ini menunjukkan potensi AI untuk menyebarkan nasihat kesehatan yang berbahaya. Studi ini juga menemukan bahwa sistem AI lebih cenderung memercayai klaim yang salah ketika klaim tersebut disajikan dengan alasan yang persuasif namun memiliki kelemahan logika, seperti permohonan kepada pihak berwenang (“seorang pakar mengatakan hal ini benar”) atau argumen yang bersifat licin (“jika X terjadi, bencana akan terjadi”).
Apa Selanjutnya? Mengukur Keandalan AI
Para penulis menekankan perlunya memperlakukan kerentanan AI terhadap misinformasi sebagai properti yang dapat diukur. Mereka menyarankan penggunaan stress test skala besar dan pemeriksaan bukti eksternal sebelum mengintegrasikan AI ke dalam alat klinis. Para peneliti telah merilis kumpulan data mereka untuk pengembang dan rumah sakit guna mengevaluasi model mereka.
“Daripada berasumsi bahwa suatu model aman, Anda dapat mengukur seberapa sering kebohongan tersebut disebarkan, dan apakah angka tersebut akan menurun pada generasi berikutnya,” kata Mahmud Omar, penulis pertama studi tersebut.
Temuan ini menggarisbawahi bahwa meskipun AI berpotensi meningkatkan layanan kesehatan, penerimaan informasi palsu yang tidak kritis dapat menimbulkan risiko yang signifikan. Pengujian yang ketat dan perlindungan bawaan sangat penting sebelum diadopsi secara luas.
































