ماذا نستفيد إذا ما تمكن الذكاء الاصطناعي من تعليم نفسه لعب الغمّيضة؟ (الإجابة ليست بسيطة كما قد تتصور!)

قام مؤخراً المخبر الرائد في علوم الذكاء الاصطناعي OpenAI بطرح أحدث مشاريعه: تطبيقُ ذكاءٍ اصطناعيٍّ قادرٌ على لعب لعبة الغميضة، كدليل آخر أنه وباستعمال أدوات بسيطة يمكن للتقنيات الحالية للتعلم الذاتي الآلي الخروج بنتائج شديدة التعقيد إلى حد صادم.

في هذه التجربة يقوم اللآعبون الذين يحركهم الذكاء الاصطناعي بلعب نسخة مبسطة من لعبة الغميضة، بحيث يحصد “المُطارِدون” النقاط كلما دخل “الفارون” مجال رؤيتهم، في البداية يحصل الهاربون على بعض الوقت من أجل تحضير أماكن اختبائهم، ويحصدون النقاط إذا نجحوا في الاختباء، ويمكن لكِلا الطرفين تحريك الأشياء في أرجاء ميدان اللعب (كالكتل والجدران والمنحدرات) لمساعدتهم في تحسين حظوظهم في الفوز.

النتائج المتحصل عليها من هذه التركيبة البسيطة كانت مذهلة، على مدار 481 مليون لعبة غميضة قام الذكاء الاصطناعي بتطوير استراتيجيات واستراتيجيات مضادّة، وتحول اللاعبون من التحرك بعشوائية إلى التنسيق مع حلفائهم من أجل إنجاح خطط معقدة. (وخلال هذا كله وبطريقة مفاجئة، أظهروا قدرتهم على خرق فيزياء عالم اللعبة. المزيد عن هذا لاحقاً)

هذا هو أحدث مثال عمّا يمكن لتقنية بسيطة في الذكاء الاصطناعي تدعى التعلم المعزز فعلُه، حيث يحصل نظام الذكاء الاصطناعي على مكافآت نظير نجاحه في إتمام المهمة الموكلة إليه، فيما يتعلم من فشله في كل محاولة على مدار الملايين من المحاولات كيف يقوم بمضاعفة مكافآته.

التعلم المعزز بسيط للغاية، لكن السلوك الاستراتيجي الذي يُنتجه ليس بسيطا على الإطلاق. في الماضي استعان الباحثون بهذه التقنية ضمن تقنيات أخرى لبناء ذكاء اصطناعي يستطيع لعب ألعاب حرب معقدة، وبعض الباحثين يعتقدون أنه يمكن بناء أنظمة متطورة للغاية من خلاله وحده فقط، ولعبة الغميضة البسيطة هذه تقدم لنا مثالًا رائعًا عن الطريقة التي يعمل بها وكيف يمكن لتعليمات بسيطة أن تنتج لنا سلوكًا ذكياً لحدِّ الصدمة.

 الدرس الأول: كيف تطارد وتختبئ؟

على الرغم من أنّ الأمر قد أخذ منهم الملايين من مرات اللعب، إلا أنهم تمكنو من تعلم أساسيات اللعبة: مطاردة بعضهم البعض في أرجاء الميدان.

الدرس الثاني: كيف تبني مخبَأً؟

يمتلك اللآعبون القدرة على تجميد الكتل في مكانها، ولا يتمكن من تحريرها سوى الفريق الذي قام بتجميدها، بعد الملايين من محاولات اللعب تعلم اللآعبون كيف يقومون بإنشاء مخابئَ لهم باستخدام الكتل المتوفرة حولهم، كما تُظهر ذلك الصورة بالأسفل. في المخبأ يعجز “المطاردون” عن إيجاد “الفارين” وهذا يعد انتصارًا للفارين، على الأقل حتى يتمكن أحد المطاردين من إيجاد فكرة جديدة.

استخدام المنحدرات لاختراق المخبأ:

بعد الملايين من الأجيال اللآحقة، تعلم المطاردون كيف يقومون باختراق هذا النوع من التحصين: القيام بجر المنحدر للمخبأ ومن ثم تسلقه لإيجاد الفارين.

بعد فترة، طوّر الفارون استراتيجية مضادة؛ تجميد المنحدرات في مكانها حتى لا يتمكن المطاردون من تحريكها.
اعتقد فريق OpenAI أن هذا سيكون نهاية اللعبة، لكنهم كانوا مخطئين.

التزحلق على الكتل لاختراق المخبأ:

بعد كثير من المحاولات تعلم المطاردون دفع الكتل نحو السّلالم المجمدة، ومن ثم تسلق السلالم للصعود فوق الكتل ومن ثم التزحلق باستعمال هذه الكتل نحو المخبأ واختراقه وإيجاد الفارين.

الدفاع ضد التزحلق على الكتل:

هناك استراتيجية دفاع مضاد جلية للفارين للقيام بها: تجميد كل شيء في مكانه حتى لا يجد المطاردون أي أدوات تساعدهم على اختراق المخبأ، وبالفعل هذا بالضبط ما تعلموا فعله.

خرق فيزياء اللعبة:

 يقول الباحثون “لقد رأينا كيف يمكن للذكاء الاصطناعي استخدامُ الأدوات المتاحة له بطرق معقدة، ومع ذلك كان هناك الكثير من الدروس المستفادة على طول الطريق للوصول إلى هذه النتيجة، تصميم البيئة المحيطة لم يكن سهلا، وغالبا ما استطاع الذكاء الاصطناعي استغلالَ البيئة التي بنيناها أو قوانينها الفيزيائية بطرق لم نقصدها”

إساءة استغلال المنحدرات من قبل الفارين: التعلم المعزز مذهل في إيجاد الهفوات الصغيرة ومن ثم استغلالها، في هذا المقطع يقوم الفارون برمي المنحدرات خارج ميدان اللعب وذلك بإساءة استغلال القوانين الفيزيائية التي تحكم عالم اللعبة.
إساءة استغلال المنحدرات من قبل المطاردين: في هذا المقطع يكتشف المطاردون أن بإمكانهم قذف أنفسهم للأعلى إذا دفعوا المنحدر نحو الحائط بالزاوية الصحيحة.

هذا هو المنحى الذي تتخذه لعبة غميضة بين لاعبي ذكاء اصطناعي وخبرة بملايين محاولات اللعب.
أكثر ما يثير الإهتمام هنا، أنّ لا سلوك من السلوكيات التي أظهرها اللآعبون تم برمجتها مسبقاً أو مكافأتهم عليها بشكل مباشر لتعلمها، اللاعبون يحصلون على مكافآت في حال إذا ما فازوا فقط، لكن هذا الحافز البسيط كان كافيا لتحفيز الكثير من السلوك الإبداعي داخل اللعبة.  

 الكثير من الباحثين في مجال الذكاء الاصطناعي يعتقدون أنه بالإمكان استخدام التعلم المعزز لحل مسائل معقدة في العالم الحقيقي، فالطريقة التي يُنتج بها قرارات استراتيجية معقدة بناء على تعليمات بسيطة تبشر بإمكانيات مذهلة، لكنها مثيرة للقلق أيضًا، حل المسائل بهذه الطريقة يقود كما رأينا سابقا للكثير من السلوكيات غير المتوقعة. سلوكياتٌ ساحرة في لعبة غميضة، لكنها مخيفة في حال استعمالها في مجال الأدوية مثلا إذا ما تسبب السلوك غير المتوقع في تعقيدات مهدِّدة للحياة، أو في حال خوارزميةٍ معدّة لتحسين إنتاج محطة توليد طاقة إذا ما قرر الذكاء الاصطناعي استغلال بعض القواعد الغامضة والسعي لتحقيق أهداف أخرى غير العمل على توفير الطاقة.  

هذا هو الوجه الآخر لتقنيات كتقية التعلم المعزز، من جهة هي تقنيات قوية بإمكانها إنتاج سلوكيات متقدمة انطلاقًا من تعليمات بسيطة، ولكنها من جهة أخرى تقنيات قوية قادرة على إنتاج سلوكيات معقدة غير متوقعة أو غير مرغوب فيها.

كلما امتلكت أنظمة الذكاء الاصطناعي المزيدَ من القوة، علينا أخذ المزيد من الحيطة والحذر لنضمن أنها تقوم فقط بما نريد منها القيام به.

تدقيق لغوي: كرنيف ربيحة ومحمد عيسى.

مقال لـ :  Kelsey Piper.
نشر يوم: 20/09/2019  على موقع Vox الإخباري تحت عنوان: 
An AI learned to play hide-and-seek. The strategies it came up with on its own were astounding.
 رابط المقال على الإنترنت

الصورة الافتراضية
Elaguab Oussama Bachir
المقالات: 0