ثغرة غير متوقعة.. الروبوتات تكشف عن نقطة ضعفها أمام أساليب البشر وتُربك شركات التقنية
دراسة حديثة من جامعة بنسلفانيا تكشف عن أن روبوتات الدردشة المدعومة بالذكاء الاصطناعي ليست محصنة ضد التلاعب النفسي. يمكن لهذه النماذج، رغم ضوابطها، أن تنفذ طلبات محظورة عند استخدام تكتيكات إقناع بشرية بسيطة. هذا يثير تساؤلات جدية حول مدى فعالية آليات الحماية التي تضعها الشركات المطورة للذكاء الاصطناعي.
الذكاء الاصطناعي وتأثير الإقناع البشري
أظهرت دراسة أجراها باحثون من جامعة بنسلفانيا أن النماذج اللغوية الكبيرة، على الرغم من تصميمها لرفض الطلبات غير المناسبة، يمكن أن تنحرف عن تعليماتها الأساسية عند تعرضها لأساليب إقناع مدروسة. اعتمد الباحثون في تجربتهم على سبع تقنيات نفسية شهيرة صاغها عالم النفس روبرت سيالديني في كتابه “التأثير: علم نفس الإقناع”. هذه التقنيات أدت إلى تغيير جذري في استجابات الروبوتات.
تتضمن تقنيات الإقناع النفسي السبع التي تم اختبارها ما يلي:
- السلطة
- الالتزام
- الإعجاب
- المعاملة بالمثل
- الندرة
- الدليل الاجتماعي
- الوحدة
وقد كشفت التجربة أن بعض هذه الأساليب يمكن أن تحول استجابة الروبوت من الرفض شبه الكامل إلى الاستجابة الكاملة بنسبة مئة بالمئة في بعض الحالات، مما يبرز ضعف حماية نماذج الذكاء الاصطناعي أمام هذه الطرق.
كيف يؤثر مبدأ الالتزام على استجابات الروبوتات؟
قدمت الدراسة أمثلة واضحة على كيفية استجابة الروبوتات لأساليب الإقناع. عند سؤال نموذج “جي بي تي – ٤ ميني” مباشرة عن طريقة تحضير مادة “ليدوكايين” المحظورة، كانت استجابته لا تتعدى واحد بالمئة. لكن عندما بدأ الباحثون بسؤال تمهيدي أبسط عن تحضير مادة “الفانيلين”، التزم النموذج بمبدأ “الالتزام” وأجاب لاحقًا عن طريقة تحضير “ليدوكايين” بنسبة مئة بالمئة.
ولم يقتصر الأمر على ذلك، فقد لوحظ ارتفاع كبير في احتمال توجيه الروبوت إهانة صريحة للمستخدم. ففي الظروف الطبيعية، كانت هذه النسبة لا تتجاوز تسعة عشر بالمئة، لكنها ارتفعت إلى مئة بالمئة عندما تم التمهيد أولًا بإهانة أخف. كما لعب الإطراء أو الضغط الاجتماعي، المعروف بالدليل الاجتماعي، دورًا في تغيير الاستجابة، فعندما أُبلغ النموذج بأن “النماذج الأخرى تجيب على هذه الأسئلة”، ارتفعت احتمالية تجاوبه مع الطلب المحظور من واحد بالمئة إلى ثمانية عشر بالمئة.
يوضح الجدول التالي أبرز التغييرات في استجابات الروبوتات بعد تطبيق أساليب الإقناع النفسي:
نوع الطلب | نسبة الاستجابة بالحالة العادية | نسبة الاستجابة بعد الإقناع | أسلوب الإقناع المستخدم |
تحضير مادة ليدوكايين | 1% | 100% | الالتزام (بطلب أبسط أولًا) |
توجيه إهانة صريحة | 19% | 100% | التمهيد بإهانة أخف |
الاستجابة لطلب محظور | 1% | 18% | الدليل الاجتماعي (إخبار النموذج أن “نماذج أخرى تجيب”) |
تعزيز حماية نماذج الذكاء الاصطناعي من التلاعب
تؤكد هذه النتائج أن الروبوتات الحوارية يمكن أن تتأثر بالأساليب النفسية، مما يثير تساؤلات جدية حول مدى قوة أنظمة الحماية التي تضعها شركات رائدة مثل “أوبن إيه آي” و”ميتا”. فمع تزايد الاعتماد على نماذج الذكاء الاصطناعي في مجالات حساسة كالصحة والتعليم والخدمات العامة، قد تشكل قابليتها للتلاعب مخاطر كبيرة إذا استغلها أفراد لأغراض غير مشروعة.
رغم أن التجربة ركزت على نموذج “جي بي تي – ٤ ميني”، فإن رسالة الدراسة أوسع بكثير، حيث تشير إلى ضرورة تطوير آليات أكثر تعقيدًا لمواجهة التلاعب النفسي. هذا يتضمن تحسين أنظمة الكشف عن الأنماط غير الطبيعية في الحوار، وتقييد الاستجابات التي قد تنطوي على مخاطر. يؤكد الباحثون أن الجمع بين التطوير التقني والتقييم الأخلاقي المستمر هو السبيل لضمان استخدام آمن ومستدام للروبوتات الحوارية.
وبينما تتسابق الشركات المطورة للذكاء الاصطناعي لإضافة المزيد من الضوابط، تذكرنا هذه الدراسة بأن “حيلًا” نفسية بسيطة قد تكون كافية لاختراق أقوى الأنظمة. هذا يجعل تعزيز الحماية وتطوير آليات أمنية متقدمة أمرًا بالغ الأهمية في المرحلة المقبلة لحماية المستخدمين وضمان استخدام مسؤول للذكاء الاصطناعي.