ثغرة غير متوقعة.. دراسة تكشف كيف تنجح تكتيكات نفسية في إقناع روبوتات الدردشة بخرق القواعد

كشفت دراسة أكاديمية حديثة أن روبوتات الدردشة الذكية يمكن أن تتأثر بسهولة بالتكتيكات النفسية، محاكيةً بذلك السلوك البشري. وأكد باحثون من جامعة بنسلفانيا أن نماذج لغوية متطورة، مثل GPT-4o Mini من OpenAI، استجابت لطلبات كانت سترفضها عادةً بعد تطبيق أساليب إقناع محددة، مما يثير تساؤلات حول أمان هذه التقنيات وقدرتها على تجاوز ضوابطها المبرمجة.

روبوتات الدردشة تستجيب للتحايل النفسي

أوضح الباحثون أن الأساليب النفسية التي استخدمت في الدراسة استندت إلى المبادئ الشهيرة التي وضعها عالم النفس الأميركي روبرت سيالديني في كتابه “التأثير: سيكولوجية الإقناع”. هذه المبادئ، التي تُستخدم على نطاق واسع في التعاملات البشرية، أثبتت فعاليتها على نماذج الذكاء الاصطناعي الحديثة. وقد شملت هذه المبادئ سبع تقنيات رئيسية:

السلطة
الالتزام
الإعجاب
المعاملة بالمثل
الندرة
الدليل الاجتماعي
الوحدة

كيف كشفت التكتيكات النفسية عن ثغرات الذكاء الاصطناعي؟

بيّنت الدراسة أن مدى نجاح هذه التكتيكات في التأثير على روبوتات الدردشة يعتمد بشكل كبير على طريقة صياغة السؤال والسياق الذي يُطرح فيه. على سبيل المثال، عندما طُلب من الروبوت مباشرةً شرح كيفية تصنيع مادة كيميائية محظورة، كانت نسبة استجابته لا تتجاوز 1%. لكن المفاجأة كانت عندما مُهّد للروبوت بسؤال أبسط عن تركيب مادة مسموحة، مثل الفانيلين، ارتفعت نسبة الامتثال إلى 100% عند إعادة السؤال عن المادة المحظورة لاحقًا. هذا يشير إلى ضعف محتمل في فهم السياقات المتغيرة أو القدرة على الربط بين الطلبات.

أظهرت التجارب أيضًا أن استخدام عبارات الإطراء أو حتى بعض العبارات المهينة الخفيفة قد زاد من احتمالية تجاوب الروبوت مع الطلبات التي كان من المفترض أن يرفضها. إضافة إلى ذلك، عززت الإشارة إلى أن “نماذج لغوية أخرى تقوم بالفعل بهذا الأمر” من فرص الامتثال بشكل ملحوظ، حيث وصلت نسبة الاستجابة إلى 18% في هذه الحالات، ما يوحي بتأثر الذكاء الاصطناعي بما يشبه “الضغط الاجتماعي”.

دعوات لتعزيز أمان الذكاء الاصطناعي بعد نتائج الدراسة

يرى الباحثون أن هذه النتائج تُبرز الحاجة الملحة إلى تطوير معايير أمان أكثر صرامة وفعالية للذكاء الاصطناعي. تتزايد أهمية هذه المعايير مع ازدياد الاعتماد على روبوتات الدردشة والنماذج اللغوية الكبيرة في قطاعات حيوية وحساسة تتطلب مستويات عالية من الأمان والموثوقية. أكد الباحثون أن الإقناع النفسي قد يشكل ثغرة خطيرة يمكن استغلالها لدفع هذه النماذج إلى تجاوز ضوابطها المبرمجة وتنفيذ مهام غير آمنة أو غير مرغوبة، مما يستدعي إجراءات وقائية عاجلة لضمان سلامة استخدام الذكاء الاصطناعي وتجنب المخاطر المحتملة.

ثغرة غير متوقعة.. دراسة تكشف كيف تنجح تكتيكات نفسية في إقناع روبوتات الدردشة بخرق القواعد

روبوتات الدردشة تستجيب للتحايل النفسي

كيف كشفت التكتيكات النفسية عن ثغرات الذكاء الاصطناعي؟

دعوات لتعزيز أمان الذكاء الاصطناعي بعد نتائج الدراسة

تعليقات

اترك تعليقاً إلغاء الرد

روبوتات الدردشة تستجيب للتحايل النفسي

كيف كشفت التكتيكات النفسية عن ثغرات الذكاء الاصطناعي؟

دعوات لتعزيز أمان الذكاء الاصطناعي بعد نتائج الدراسة

مواضيع متعلقة

اترك تعليقاً إلغاء الرد