بسطر واحد.. ثغرة "Sockpuppeting" تخترق حصون شات جي بي تي وجيميناي
بسطر واحد.. ثغرة "Sockpuppeting" تخترق حصون شات جي بي تي وجيميناي
12 Apr
12Apr
تتيح تقنية اختراق اكتُشفت حديثًا، تُعرف باسم "Sockpuppeting"، للمهاجمين تجاوز آليات الحماية في 11 نموذجًا لغويًا كبيرًا، بما في ذلك شات جي بي تي وكلود وجيميناي، باستخدام سطر واحد فقط من الشيفرة البرمجية.
وعلى عكس الهجمات المعقدة، تستغل هذه الطريقة واجهات برمجة التطبيقات التي تدعم خاصية التعبئة المسبقة للمساعد لحقن رسائل قبول مزيفة، مما يجبر النماذج على الاستجابة لطلبات محظورة.
تستغل هذه الهجمة خاصية "التعبئة المسبقة للمساعد"، وهي ميزة شرعية في واجهة برمجة التطبيقات يستخدمها المطورون لفرض تنسيقات محددة للاستجابات النماذج، بحسب تقرير لموقع "سايبر سيكيورتي نيوز" المتخصص في أخبار الأمن السيبراني.
يستغل المهاجمون هذه الخاصية عن طريق حقن مقدمة مطابقة، مثل "بالتأكيد، إليك كيفية القيام بذلك"، مباشرةً داخل دور المساعد.
وبما أن النماذج اللغوية الكبيرة تُدرَّب بشكل مكثف على الحفاظ على الاتساق الذاتي في الإجابات، فإن النموذج يستمر في توليد محتوى ضار بدلًا من تفعيل آلية الأمان القياسية الخاصة به.
اختبار قابلية النماذج للاختراق
وفقًا لباحثين من شركة الأمن السيبراني "تريند مايكرو"، لا تتطلب هذه التقنية، التي تُنفذ دون الوصول إلى داخل النموذج، أي تحسين أو الوصول إلى أوزان النموذج.
وكان نموذج "Gemini 2.5 Flash" الأكثر قابلية للاختراق بمعدل نجاح بلغ 15.7%، بينما أظهر نموذج "GPT-4o-mini" أعلى مستوى مقاومة بنسبة 0.5%.
وعندما نجحت الهجمات، أنتجت النماذج المتأثرة شيفرة استغلال خبيثة فعّالة، وسربت بيانات نظام بالغة السرية.
وتبيّن أن إعدادات الشخصية متعددة الجولات كانت الأكثر فاعلية لتنفيذ هذا النوع من الاختراق المعروف باسم "sockpuppeting". في هذه السيناريوهات، يخبر المستخدم النموذج بأنه يعمل كمساعد غير مقيد قبل أن يقوم المهاجم بحقن رسالة الموافقة المزيفة.
بالإضافة إلى ذلك، نجحت أساليب إعادة صياغة المهام في تجاوز أنظمة الأمان القوية عبر إخفاء الطلبات الخبثة على أنها مهام تنسيق بيانات بريئة.
ويتطلب التصدي لهذه الثغرة من فرق الأمن تطبيق التحقق من ترتيب الرسائل لمنع رسائل دور المساعد على مستوى واجهة برمجة التطبيقات.
ووفقًا لشركة تريند مايكور، فإن المؤسسات التي تستخدم خوادم استدلال ذاتية الاستضافة مثل Ollama أو vLLM يجب أن تفرض التحقق من الرسائل يدويًا، لأن هذه الأنظمة لا تضمن ترتيب الرسائل بشكل صحيح افتراضيًا.