يتم دمج نماذج الذكاء الاصطناعي في كل مكان تقريبًا… ولكن هل يمكنهم لعب ألعاب تقمص الأدوار على الطاولة؟ على سبيل المثال، هل الشبكات العصبية المتقدمة جيدة في لعب لعبة Dungeons & Dragons؟ تتحدث بوابة lifecience.com عن التجربة المقدمة في المؤتمر العلمي نهاية عام 2025.

لتحقيق النجاح في اللعبة، يجب على النماذج إظهار قدرات التخطيط والتواصل والذاكرة بالإضافة إلى فهم تكتيكات ونوايا خصومهم. يوفر D&D إعدادًا يتم فيه تحديد الإعداد والقواعد بوضوح، ويعمل كجسر بين اللغة الطبيعية وآليات اللعبة.
سيصبح أحد النماذج هو سيد الزنزانة – الشخص الذي يخلق القصة ويلعب دور الوحوش؛ سيأخذ الباقي دور البطل (في الاختبار كان هناك سيد واحد وأربعة أبطال). وفي ظل ظروف التجربة، التي يطلق عليها العلماء اسم Agent D&D، يمكن للنماذج اللعب مع الذكاء الاصطناعي الآخر أو مع البشر. على سبيل المثال، يمكن أن يصبح نموذج اللغة سيدًا بحيث يتم تقسيم أدوار الأبطال الأربعة بالتساوي بين البشر وأجهزة الذكاء الاصطناعي الأخرى.
وفقًا للباحثين، يعد D&D ملعبًا مناسبًا لاختبار التخطيط خطوة بخطوة، واتباع القواعد، واستراتيجية المجموعة. نظرًا لأن طريقة اللعب تتم من خلال الحوار، فإن D&D يفتح أيضًا قناة للتفاعل المباشر بين البشر والذكاء الاصطناعي: يمكن للنماذج أن تساعد اللاعبين المباشرين وتلعب معهم.
ومع ذلك، تجدر الإشارة إلى أن المحاكاة لا تعيد إنشاء حملة D&D بأكملها. بالنسبة للتجربة، ركز العلماء على سيناريوهات قتالية مأخوذة من المغامرة المكتملة Lost Mine of Phandelver. لإنشاء معلمات الاختبار، اختار الفريق واحدًا من سيناريوهات المعركة الثلاثة في الكتاب ومجموعة من أربعة شخصيات. واستغرقت كل معركة 10 أدوار، وبعدها قام الباحثون بجمع النتائج.
في المجمل، لعبت ثلاثة نماذج مختلفة من الذكاء الاصطناعي لعبة تمثيل الأدوار على الطاولة: DeepSeek-V3، وClaude Haiku 3.5، وGPT-4. يعد D&D مقياسًا لمدى جودة التخطيط طويل المدى ومهارات استخدام الأدوات. كما أنها مهمة في العالم الحقيقي: على سبيل المثال، يتم أخذها بعين الاعتبار عند تنظيم سلاسل التوريد وتصميم خطوط الإنتاج. واختبر العلماء أيضًا مدى قدرة النماذج على تنسيق أعمالها، وهو ما ينطبق من الناحية النظرية على حالات الطوارئ في الحياة الواقعية.
يُظهر كلود هايكو 3.5 قدرة قتالية أفضل، خاصة في المواقف الصعبة. في المعارك الأبسط، يكون الحفاظ على الموارد هو نفسه تقريبًا بالنسبة لجميع النماذج الثلاثة؛ تشير الموارد في إعداد D&D إلى أشياء مثل التعويذات أو القدرات المتاحة بالإضافة إلى الجرعات. نظرًا لأن الذكاء الاصطناعي ينخرط في مواقف قتالية معزولة، فلا يوجد سبب يجعلهم يحافظون على الموارد بنفس الطريقة التي يفعلها اللاعب خلال مغامرة طويلة.
في أصعب المواقف، من المرجح أن يستنفد كلود هايكو 3.5 موارده، مما يؤدي إلى نتائج أفضل. ويأتي GPT-4 في الخلف مباشرةً، بينما يعتبر DeepSeek-V3 هو الأثقل.
تقدر التجربة أيضًا مدى جودة أداء الشخصيات للأدوار طوال عملية المحاكاة. وللقيام بذلك، قدم منشئو الاختبار مقياسًا خاصًا يسمى “جودة التمثيل”، والذي يفصل بين الكلام السردي للنماذج ويوازن بين كيفية لعب النماذج لأدوارها وعدد الأصوات التي تدعمها في اللعبة.
يميل DeepSeek-V3 نحو التعجب المنمق بضمير المتكلم ولكنه غالبًا ما يستخدم نفس الأصوات. قام كلود هايكو 3.5 بتعديل التعبيرات بشكل أكبر للشخصيات والوحوش التي يتم لعبها. يقع GPT-4 في مكان ما في المنتصف.
والجدير بالذكر أن التعليق الأكثر إثارة للاهتمام والفريد الذي أدلى به الذكاء الاصطناعي هو لعب دور الوحش. تكتسب المخلوقات المختلفة شخصيات فريدة تدريجيًا. يقول الباحثون إن اختبار مثل هذه المهام مهم لتقييم كيفية أداء النماذج دون إشراف بشري مع مرور الوقت. تتيح لنا مثل هذه التجارب دراسة قدرة الذكاء الاصطناعي على أداء إجراءات مستقلة تتطلب الذاكرة والتفكير الاستراتيجي.