مفاجأة للخبراء.. دراسة تكشف تعثر الذكاء الاصطناعي أمام الأسئلة الطبية المعدلة

كشفت دراسة حديثة نشرت في مجلة JAMA Network Open أن الأداء المتفوق لنماذج الذكاء الاصطناعي الطبي في اختبارات الترخيص قد يكون مضللًا، حيث تعتمد هذه النماذج بشكل كبير على التعرف على الأنماط بدلاً من الاستدلال السريري الحقيقي. قادت الباحثة سوهانا بيدي من جامعة ستانفورد فريق البحث الذي أجرى تعديلات جوهرية على اختبارات طبية لإظهار القدرات الفعلية لهذه التقنيات. لإثبات ذلك، ابتكر الفريق نسخة معدلة من اختبار MedQA استُبدلت فيها الإجابة الصحيحة بخيار “لا شيء من الإجابات الأخرى”، ما أجبر النماذج على إظهار قدراتها الحقيقية في التفكير الطبي. وقد دقّق هذه التعديلات أطباء مختصون لضمان صحتها، وشملت 68 سؤالًا تعكس سيناريوهات إكلينيكية شائعة تتطلب قرارات تشخيصية وعلاجية دقيقة.

نتائج صادمة تكشف تراجع أداء الذكاء الاصطناعي الطبي

عند تطبيق هذه التعديلات المنهجية، أظهرت ستة نماذج بارزة للذكاء الاصطناعي تراجعًا كبيرًا في أدائها. شملت هذه النماذج GPT-4o، وClaude 3.5 Sonnet، وGemini 2.0 Flash، بالإضافة إلى Llama 3.3-70B، ونماذج أخرى مثل DeepSeek-R1 وo3-mini. كانت الانخفاضات متفاوتة ومثيرة للقلق، مما يعكس ضعفًا في قدرة هذه الأنظمة على الاستنتاج السريري عند مواجهة أسئلة غير نمطية.

اقرأ أيضًا: تربع على العرش.. فيلم “درويش” لعمرو يوسف يتصدر إيرادات شباك التذاكر في صيف سينمائي حافل

يوضح الجدول التالي أبرز نماذج الذكاء الاصطناعي التي خضعت للدراسة ونسبة التراجع في دقتها:

نموذج الذكاء الاصطناعينسبة تراجع الدقة التقريبية
DeepSeek-R19% – 16%
o3-mini9% – 16%
GPT-4oأكثر من 25%
Claude 3.5 Sonnetأكثر من 25%
Gemini 2.0 Flashأكثر من 25%
Llama 3.3-70Bحوالي 40%

شبه الباحثون هذا التراجع بالطالب الذي يتفوق في التدريبات الروتينية لكنه يواجه صعوبة عند تغيير صياغة الأسئلة. هذه النتائج تؤكد أن النماذج لم تكن تعتمد على “التفكير الطبي” الحقيقي، بل كانت تستنسخ أنماطًا محفوظة. يثير هذا الأمر قلقًا بالغًا بشأن مدى جاهزية هذه التقنيات للتعامل مع التحديات المعقدة في الممارسة الطبية الواقعية، حيث يواجه الأطباء باستمرار بيانات ناقصة وأعراضًا متداخلة وحالات مرضية غير مألوفة تتطلب استدلالًا بشريًا دقيقًا.

اقرأ أيضًا: بسعر يبدأ من 645 ألفًا.. طرح سيارات موديل 2026 في مصر لأول مرة

مستقبل الذكاء الاصطناعي الطبي: توصيات لتطوير آمن وفعال

شددت الدراسة على أن الاعتماد الكلي على نتائج الاختبارات النظرية وحدها لا يعكس الكفاءة الحقيقية للذكاء الاصطناعي في البيئة السريرية الواقعية. لذا، أوصى الباحثون بثلاثة مسارات أساسية لضمان تطور مسؤول للذكاء الاصطناعي في المجال الطبي:

  • تطوير أدوات تقييم جديدة قادرة على التمييز بوضوح بين الاستدلال الحقيقي والقدرة على التعرف على الأنماط المكررة.
  • زيادة الشفافية بشأن الآليات التي تستخدمها النماذج للاستجابة للمشكلات الطبية الجديدة وغير المسبوقة.
  • ابتكار تقنيات تركز على تعزيز القدرات الاستدلالية الفعلية، بدلاً من الاكتفاء بالتوقعات الإحصائية.

على الرغم من أن عينة الدراسة كانت محدودة وتضمنت 68 سؤالًا فقط، فإن تكرار النتائج المتماثلة على جميع النماذج المشاركة يعزز من مصداقية الاستنتاجات. يدعو الفريق البحثي إلى إجراء اختبارات أوسع نطاقًا، تشمل بيانات مرضى فعلية واستخدام أدوات متقدمة مثل “الاسترجاع المعزز بالمعلومات” (RAG) أو التدريب المتخصص على مجموعات بيانات سريرية ضخمة. الهدف الأسمى، وفقًا للباحثة بيدي وزملائها، هو التأكد من أن نماذج الذكاء الاصطناعي المستقبلية لا تكتفي بتحقيق النجاح في الامتحانات فحسب، بل تكون شريكًا فعالًا ومسؤولًا للأطباء، قادرًا على تقديم المساعدة الآمنة والموثوقة في الممارسة الطبية اليومية.

اقرأ أيضًا: نهاية الانتظار.. الإعلان عن موعد عرض مسلسل سلمى على MBC1 ومنصة شاهد