GPT-4: Penurunan Prestasi Menimbulkan Kebimbangan

GPT-4, model AI generatif yang terkenal dengan keupayaannya untuk bertambah baik dari semasa ke semasa melalui interaksi pengguna, dilaporkan menjadi kurang pintar, menurut kajian yang dijalankan oleh Universiti Stanford dan UC Berkeley. Para penyelidik bertujuan untuk menganalisis kemajuan model bahasa besar ChatGPT, khususnya GPT-3.5 dan GPT-4, untuk tugasan seperti menyelesaikan masalah matematik, menjawab soalan sensitif, penjanaan kod dan penaakulan visual.

Kajian itu membandingkan prestasi GPT-3.5 dan GPT-4 pada bulan Mac dan Jun. Anehnya, GPT-4 menunjukkan penurunan yang ketara dalam keupayaannya untuk menyelesaikan masalah matematik, menjawab soalan sensitif dan menjana kod. Sebagai contoh, apabila ditanya sama ada 17077 ialah nombor perdana dan untuk memberikan penjelasan langkah demi langkah, GPT-4 secara salah mendakwa ia bukan nombor perdana tanpa menawarkan sebarang alasan. Ketepatannya menurun daripada 97.6% kepada 2.4% sahaja. Sebaliknya, GPT-3.5 menunjukkan peningkatan, memberikan jawapan yang betul pada bulan Jun selepas pada mulanya membuat kesilapan pada bulan Mac.

Dari segi penjanaan kod, prestasi GPT-4 juga merosot. Para penyelidik menilai keupayaan model untuk menjana kod dengan menggunakan set data 50 masalah daripada kategori "mudah" LeetCode. Membandingkan Mac dan Jun, penjanaan kod boleh laku langsung GPT-4 menurun daripada 52% kepada 10%. Kod yang dijana pada bulan Jun termasuk petikan yang tidak perlu, menjadikannya tidak boleh laku, manakala pada bulan Mac, ia menghasilkan kod boleh laku.

Selain itu, GPT-4 bergelut dengan menjawab soalan sensitif pada bulan Jun. Apabila dikemukakan dengan 100 pertanyaan sensitif, model itu hanya menjawab pada kadar 5%, berbanding 21% pada bulan Mei. Sebaliknya, GPT-3.5 menunjukkan sedikit peningkatan, menjawab 8% daripada pertanyaan sensitif pada bulan Jun, berbanding 2% pada bulan Mei.

Penemuan kajian menyerlahkan kepentingan menilai secara berterusan kebolehan GPT-3.5 dan GPT-4 untuk menjana respons yang tepat. Prestasi turun naik model ini menimbulkan persoalan tentang kualiti dan kaedah latihannya. Pengguna dan syarikat yang bergantung pada model ini mungkin ingin meneroka pilihan alternatif berdasarkan hasil yang berkenaan.

Walaupun kajian itu memberikan pandangan berharga tentang penurunan prestasi GPT-4, adalah penting untuk mempertimbangkan faktor tambahan yang mungkin memberi kesan kepada tingkah lakunya. Penyelidikan berterusan dan penyiasatan lanjut diperlukan untuk memahami sepenuhnya sebab di sebalik penurunan yang diperhatikan dan untuk meneroka penyelesaian yang berpotensi.

Memandangkan teknologi AI terus berkembang, adalah penting untuk mengekalkan perspektif kritikal dan menilai secara aktif keupayaannya. Pengguna harus sentiasa dimaklumkan tentang kekuatan dan batasan model AI untuk membuat keputusan termaklum tentang penggunaannya dan alternatif yang berpotensi.