رغم الضجة حول قوة نماذج الذكاء الاصطناعي الجديدة من OpenAI، وهما o3 و o4-mini، فإن تقارير فنية كشفت عن مفارقة غير متوقعة، حيث ثوبت أن هذه النماذج تهلوس أكثر من سابقتها ،أي أنها تقدم معلومات غير صحيحة أو ملفقة بمعدل أعلى من النماذج الأقدم مثل o1 و o3-mini.
ما هي “الهلوسة” في الذكاء الاصطناعي؟
في سياق نماذج الذكاء الاصطناعي، يشير مصطلح “الهلوسة” إلى إنتاج معلومات غير دقيقة أو مختلقة ، مثل تقديم روابط غير موجودة، أو نسب أحداث لأشخاص لم تحدث، أو حتى الادعاء بتنفيذ عمليات لم تحدث أصلًا.
وبحسب اختبارات داخلية أجرتها OpenAI، فإن، نموذج o3 هلوس في 33% من الأسئلة في اختبار داخلي يسمى PersonQA، ضعف معدل الهلوسة في o1 و o3-mini.
أما نموذج o4-mini، فكانت النتائج أسوأ، بهلوسة في 48% من الأسئلة.
مصدر القلق الأكبر؟
لا تعرف شركة OpenAI السبب الدقيق لهذه الزيادة في معدل الهلوسة،
ففي تقريرها الفني، أشارت إلى أن “هناك حاجة إلى مزيد من الأبحاث لفهم السبب وراء تفاقم الهلوسات عند توسيع نطاق النماذج المنطقية reasoning models”.
ورغم أن o3 و o4-mini حققا أداءً ممتازًا في مهام الترميز والرياضيات، إلا أن زيادة عدد الادعاءات الكلية التي تنتجها النماذج أدى بدوره إلى ارتفاع عدد الادعاءات الخاطئة أيضًا، بحسب التقرير.
نتائج تحقيق خارجي
اختبارات مستقلة أجراها مختبر Transluce البحثي غير الربحي كشفت أن نموذج o3 لا يكتفي بتقديم معلومات خاطئة، بل يختلق إجراءات لم تحدث أصلاً.
في إحدى الحالات، ادعى o3 أنه قام بتشغيل كود على جهاز MacBook Pro ثم نقل الأرقام إلى جوابه، في حين أن النموذج لا يمتلك تلك الإمكانيات أصلاً.
أرجع Neil Chowdhury، الباحث في Transluce والموظف السابق في OpenAI، الظاهرة إلى أن طريقة التعلم بالتعزيز المستخدمة في نماذج o-series قد تضخم مشكلات كان يتم الحد منها في نماذج أخرى عبر تقنيات ما بعد التدريب.
تطبيقات عملية
رغم المشكلات، أشار خبراء مثل Kian Katanforoosh، أستاذ مساعد بجامعة ستانفورد ومدير شركة Workera الناشئة، إلى أن فريقه يستخدم o3 في سير عمل الترميز واعتبره متفوقًا على المنافسين.
لكنهم لاحظوا أن النموذج يهلوس روابط ويب مكسورة، حيث يقترح روابط تبدو واقعية ولكنها لا تعمل فعليًا.
البحث على الويب
تُعد إضافة ميزة البحث المباشر على الإنترنت إحدى الحلول المطروحة لتقليل الهلوسة، حيث سجل GPT-4o المزود بالبحث دقة بلغت 90% في اختبار SimpleQA، وفقًا لـ OpenAI.
لكن الاعتماد على بحث خارجي يعني أن المستخدم يجب أن يقبل بمشاركة محتوى الاستعلامات مع محركات بحث طرف ثالث، وهو ما قد يثير تحفظات تتعلق بالخصوصية.
سباق الذكاء يواجه مفارقة
رغم أن التركيز الحالي في صناعة الذكاء الاصطناعي يتحول نحو “نماذج التفكير والاستدلال” (reasoning models) باعتبارها أكثر كفاءة من النماذج التقليدية، فإنها تبدو أكثر عرضة للهلوسة.
وهذا ما يجعل مسألة تحسين دقة النماذج أكثر إلحاحًا من أي وقت مضى، خاصة في القطاعات الحساسة مثل القانون، الصحة، والإعلام، حيث قد تؤدي الهلوسة إلى عواقب كارثية.