Ujian Gastroenterologi Gagal Bot ChatGPT

ChatGPT, model pemrosesan bahasa kecerdasan buatan yang populer, gagal dalam tes penilaian diri gastroenterologi beberapa kali dalam penelitian baru-baru ini.

Versi 3 dan 4 dari chatbot masing-masing hanya mendapat skor 65% dan 62%, pada Tes Penilaian Diri American College of Gastroenterology (ACG). Nilai kelulusan minimum adalah 70%.

Arvind J. Trindade, MD

“Anda mungkin berharap seorang dokter mendapat skor 99%, atau setidaknya 95%,” penulis utama Arvind J. Trindade, MD, direktur endoskopi regional di Northwell Health (Wilayah Tengah) di New Hyde Park, New York, mengatakan kepada Medscape Medical News dalam sebuah wawancara.

Studi ini dipublikasikan secara online 22 Mei di American Journal of Gastroenterology.

Trindade dan rekannya melakukan penelitian di tengah meningkatnya laporan tentang penggunaan alat tersebut di banyak bidang akademik, termasuk hukum dan kedokteran, dan meningkatnya minat terhadap potensi chatbot dalam pendidikan kedokteran.

“Saya melihat mahasiswa gastroenterologi mengetikkan pertanyaan ke dalamnya. Saya ingin tahu seberapa akurat itu dalam gastroenterologi – apakah itu akan digunakan dalam pendidikan kedokteran dan perawatan pasien,” kata Trindade, yang juga seorang profesor di Feinstein Institutes for Medical. Penelitian di Manhasset, New York. “Berdasarkan penelitian kami, ChatGPT tidak boleh digunakan untuk pendidikan kedokteran di bidang gastroenterologi saat ini, dan masih ada cara sebelum diimplementasikan ke bidang kesehatan.”

Pertunjukan yang Buruk

Para peneliti menguji dua versi ChatGPT pada Tes Penilaian Mandiri ACG online 2021 dan 2022, sebuah ujian pilihan ganda yang dirancang untuk mengukur seberapa baik kinerja seorang peserta pelatihan pada ujian dewan Dewan Gastroenterologi Penyakit Dalam Amerika.

Pertanyaan yang melibatkan pemilihan gambar dikeluarkan dari penelitian. Bagi yang tersisa, pilihan pertanyaan dan jawaban disalin dan ditempel langsung ke ChatGPT, yang mengembalikan jawaban dan penjelasan. Jawaban yang sesuai dipilih di situs web ACG berdasarkan respons chatbot.

Dari 455 soal yang diajukan, ChatGPT-3 menjawab benar 296, dan ChatGPT-4 menjawab benar 284. Tidak ada pola yang terlihat dalam jenis pertanyaan yang dijawab oleh chatbot dengan salah, tetapi pertanyaan tentang waktu pengawasan untuk berbagai keadaan penyakit, diagnosis, dan rejimen farmasi semuanya dijawab dengan salah.

Alasan kinerja alat yang buruk dapat terletak pada model bahasa besar yang mendukung ChatGPT, tulis para peneliti. Model dilatih tentang informasi yang tersedia secara bebas — tidak secara khusus pada literatur medis dan bukan pada materi yang memerlukan langganan jurnal berbayar — untuk menjadi program interaktif tujuan umum.

Selain itu, chatbot dapat menggunakan informasi dari berbagai sumber, termasuk sumber non- atau kuasi-medis, atau sumber yang kedaluwarsa, yang dapat menyebabkan kesalahan, catat mereka. ChatGPT-3 terakhir diperbarui pada Juni 2021 dan ChatGPT-4 pada September 2021.

“ChatGPT tidak memiliki pemahaman intrinsik tentang suatu masalah,” kata Trindade. “Fungsi dasarnya adalah untuk memprediksi kata berikutnya dalam rangkaian teks untuk menghasilkan respons yang diharapkan, terlepas dari apakah respons tersebut benar secara faktual atau tidak.”

Penelitian sebelumnya

Dalam penelitian sebelumnya, ChatGPT berhasil lulus sebagian dari US Medical Licensing Examination (USMLE).

Chatbot mungkin berkinerja lebih baik di USMLE karena informasi yang diuji pada ujian mungkin lebih banyak tersedia untuk pelatihan bahasa ChatGPT, kata Trindade. “Selain itu, ambang batas kelulusan [the USMLE] lebih rendah berkaitan dengan persentase pertanyaan yang dijawab dengan benar,” katanya.

ChatGPT tampaknya lebih baik dalam membantu memberi tahu pasien daripada pada pemeriksaan medis. Chatbot umumnya memberikan jawaban yang memuaskan untuk pertanyaan umum pasien tentang kolonoskopi dalam satu studi dan tentang karsinoma hepatoseluler dan sirosis hati dalam studi lain.

Agar ChatGPT bermanfaat dalam pendidikan kedokteran, “versi masa depan perlu diperbarui dengan sumber daya medis seperti artikel jurnal, pedoman masyarakat, dan database medis, seperti UpToDate,” kata Trindade. “Dengan pelatihan medis terarah di bidang gastroenterologi, ini mungkin menjadi alat masa depan untuk pendidikan atau penggunaan pasien di bidang ini, tetapi tidak seperti saat ini. Sebelum dapat digunakan dalam gastroenterologi, harus divalidasi.”

Yang mengatakan, dia mencatat, pendidikan kedokteran telah berkembang dari yang didasarkan pada buku teks dan jurnal cetak menjadi memasukkan data jurnal berbasis internet dan pedoman praktik di situs web khusus. Jika disiapkan dengan benar, sumber daya seperti ChatGPT mungkin merupakan langkah logis berikutnya.

Studi ini tidak menerima dana. Trindade adalah konsultan untuk Pentax Medical, Boston Scientific, Lucid Diagnostic, dan Exact Science dan menerima dukungan penelitian dari Lucid Diagnostics.

Am J Gastroenterol. Diterbitkan online 22 Mei 2023. Abstrak

Diana Swift adalah jurnalis medis lepas yang berbasis di Toronto.

Untuk berita lebih lanjut, ikuti Medscape di Facebook, Twitter, Instagram, dan YouTube