دورة تطوير وكلاء أذكياء: تعلم معزز عميق و OpenAI Gym

مستوحى من: الرؤى القيمة والنهج العملي الذي قدمه برافين بالانيسامي في كتابه "وكلاء أذكياء عمليون مع OpenAI Gym"

الرئيسية
برامج التدريب
دورات الأمن السيبراني ودورات تقنية المعلومات
دورة تطوير وكلاء أذكياء: تعلم معزز عميق و OpenAI Gym

Download Brochure (PDF) Print PDF

نظرة عامة على الدورة:

الدورة عبارة عن تدريب عملي مكثف مصمم للمتخصصين الذين يرغبون في بناء أنظمة ذكاء اصطناعي باستخدام OpenAI Gym وتقنيات التعلم المعزز العميق. استنادًا إلى الكتاب الشامل وكلاء أذكياء عمليون مع OpenAI Gym، تقدم هذه الدورة رحلة عملية خطوة بخطوة عبر تطوير وكلاء أذكياء يحلون مهام العالم الحقيقي مثل لعب الألعاب، ومحاكاة الروبوتات، والقيادة الذاتية. تشمل الموضوعات الرئيسية: التعلم Q، التعلم Q العميق، إعادة تجربة الخبرة، طرق الفاعل-الناقد، وتخصيص البيئة. تغطي الدورة منصات أساسية مثل PyTorch و TensorBoard و CARLA و Roboschool و Gym-Retro و MuJoCo، وسيكتسب المشاركون المهارات اللازمة لتطبيق الوكلاء لمساحات العمل المنفصلة والمستمرة.

الجمهور المستهدف:

مهندسو ومطورو الذكاء الاصطناعي/تعلم الآلة
مهندسو الروبوتات
علماء البيانات المهتمون بالتعلم المعزز
مهندسو البرمجيات المستكشفون لوكلاء الذكاء الاصطناعي
مطورون الألعاب

الأقسام المستهدفة:

وحدات البحث والتطوير في الذكاء الاصطناعي
فرق الروبوتات والأتمتة
مختبرات الابتكار
أقسام هندسة البرمجيات
أقسام المحاكاة والألعاب

القطاعات المستهدفة:

السيارات (المركبات ذاتية القيادة)
الروبوتات والأتمتة الصناعية
الألعاب والمحاكاة
الفضاء والدفاع
تقنية الرعاية الصحية (لتدريب وكلاء تشخيص ذكيين)

أهداف الدورة:

بحلول نهاية هذه الدورة، سيتمكن المشاركون من:

إعداد واستخدام OpenAI Gym والبيئات المخصصة
تطبيق التعلم Q والتعلم Q العميق باستخدام PyTorch
تدريب الوكلاء باستخدام إعادة تجربة الخبرة وسياسات إبسيلون-الجشعة
تخصيص بيئات Gym، بما في ذلك CARLA و MuJoCo
تصور تقدم التدريب باستخدام TensorBoard
فهم وتطبيق تدرجات السياسة، الفاعل-الناقد، PPO، والتعلم المعزز Rainbow
بناء واختبار الوكلاء على ألعاب Atari وبيئات Gym-Retro
مراقبة وتحسين الأداء باستخدام تقنيات تشكيل المكافأة والمعالجة المسبقة

منهجية التدريب:

تستخدم هذه الدورة منهجية تطبيقية قائمة على المشاريع تجمع بين الأسس النظرية والممارسة الواقعية. سينخرط المتعلمون في دروس تفاعلية، تمارين بناء الوكلاء القائمة على المجموعات، عروض حية، ومشاريع تعلم معزز موجهة. يتم التركيز على التنفيذ العملي باستخدام PyTorch وملفات تهيئة JSON وتسريع CUDA و OpenAI Gym. ستوضح دراسات الحالة حول Mountain Car و Cart Pole وألعاب Atari ومحاكاة CARLA مبادئ التعلم الرئيسية. تضمن جلسات التغذية الراجعة والمناقشات الجماعية والمراجعات التأملية الاستيعاب والإتقان العملي.

أدوات الدورة:

مكتبة بيئات OpenAI Gym
إطار عمل التعلم العميق PyTorch
أدلة إعداد Conda و CUDA
TensorBoard للمراقبة
قوالب JSON للمعاملات الفائقة (hyperparameters)
محاكيات Atari و Gym-Retro
محاكي القيادة الذاتية CARLA
أمثلة على معماريات الوكلاء (DQN, PPO, DDPG, Rainbow)
دفاتر ملاحظات جاهزة وأدلة تنفيذ

محتوى الدورة:

اليوم الأول: أسس الوكلاء الأذكياء والتعلم المعزز

الموضوع 1: مقدمة إلى الوكلاء الأذكياء وبيئات التعلم
الموضوع 2: استكشاف قدرات وواجهة OpenAI Gym
الموضوع 3: فئات مهام Gym: من التحكم الكلاسيكي إلى الروبوتات
الموضوع 4: إعداد بيئات Python و Conda و CUDA و PyTorch الخاصة بك
الموضوع 5: تعمق في التعلم المعزز وعمليات ماركوف للقرار (MDPs)
الموضوع 6: فهم السياسة ووظائف القيمة واستراتيجيات الاستكشاف
تأمل ومراجعة: أساسيات وكلاء الذكاء الاصطناعي والتفاعل مع البيئة

اليوم الثاني: تطبيق عملي للتعلم Q والتعلم Q العميق

الموضوع 1: حل مشكلة سيارة الجبل باستخدام التعلم Q
الموضوع 2: تطبيق التعلم Q باستخدام NumPy وضبط المعاملات الفائقة
الموضوع 3: الانتقال إلى التعلم Q العميق باستخدام PyTorch
الموضوع 4: تطبيق إعادة تجربة الخبرة وسياسات إبسيلون-الجشعة
الموضوع 5: تثبيت التعلم باستخدام شبكات الهدف
الموضوع 6: تصور أداء الوكيل باستخدام TensorBoard
تأمل ومراجعة: مقارنة بين مناهج التعلم Q التقليدية والعميقة

اليوم الثالث: البيئات المخصصة والتطبيقات الواقعية

الموضوع 1: إنشاء بيئات Gym مخصصة باستخدام القوالب والتسجيل
الموضوع 2: بناء محاكي القيادة CARLA كبيئة متوافقة مع Gym
الموضوع 3: تطبيق وظائف إعادة الضبط والخطوة وتكامل المستشعرات
الموضوع 4: إدارة مساحات العمل المنفصلة مقابل المستمرة في CARLA
الموضوع 5: الاختبار في الوقت الفعلي وتصور البيئات القائمة على المحاكاة
الموضوع 6: تقنيات الوصول إلى بيانات الكاميرا/المستشعرات واستخدامها
تأمل ومراجعة: تصميم البيئة لوكلاء التعلم المعزز

اليوم الرابع: وكلاء متقدمون باستخدام خوارزميات الفاعل-الناقد

الموضوع 1: أساسيات تدرجات السياسة ومعماريات الفاعل-الناقد
الموضوع 2: تطبيق خوارزميات الفاعل-الناقد ذات الميزة n-خطوة
الموضوع 3: تصميم شبكات الفاعل والناقد للوكلاء المستقلين
الموضوع 4: تسجيل ومراقبة وحفظ تقدم النموذج
الموضوع 5: تدريب وكلاء الفاعل-الناقد في محاكي CARLA
الموضوع 6: استكشاف التطبيقات المتزامنة مقابل غير المتزامنة
تأمل ومراجعة: من النظرية إلى التطبيق في تدريب الفاعل-الناقد

اليوم الخامس: مشهد التعلم – PPO، DDPG، رينبو وما بعدها

الموضوع 1: تحسين السياسة التقريبية (PPO) – المفاهيم وحالات الاستخدام
الموضوع 2: تدرج السياسة الحتمية العميقة (DDPG) والتحكم المستمر
الموضوع 3: خوارزمية رينبو: دمج التحسينات القائمة على القيمة
الموضوع 4: تطبيق إعادة التجربة ذات الأولوية، والشبكات المزدوجة، والتعلم المعزز التوزيعي
الموضوع 5: بيئات Roboschool و Gym-Retro و DeepMind Lab و StarCraft II
الموضوع 6: رؤى مقارنة عبر الخوارزميات ومجموعات البيئات
تأمل ومراجعة: مناقشة ختامية حول تطوير ونشر الوكلاء

الأسئلة الشائعة:

ما هي المؤهلات أو المتطلبات المسبقة المحددة المطلوبة للمشاركين قبل التسجيل في الدورة؟

يوصى بمعرفة عملية بلغة بايثون وفهم أساسي لمبادئ تعلم الآلة. الإلمام بـ NumPy والشبكات العصبية سيساعد ولكنه ليس إلزاميًا.

كم مدة جلسة كل يوم، وهل هناك عدد إجمالي من الساعات المطلوبة للدورة بأكملها؟

تُصمم جلسة كل يوم عادةً لتستمر حوالي 4-5 ساعات، مع تضمين فترات استراحة وأنشطة تفاعلية. تمتد مدة الدورة الإجمالية على مدار خمسة أيام، أي ما يقرب من 20-25 ساعة من التدريب.

لماذا يستخدم التعلم Q العميق شبكة هدف وإعادة تجربة الخبرة؟

تعمل شبكات الهدف على استقرار التعلم عن طريق الحفاظ على هدف Q ثابت أثناء التحديثات. تعمل إعادة تجربة الخبرة على تحسين كفاءة العينة وكسر الارتباطات الزمنية في بيانات التدريب، مما يساعد على تجنب التباعد في التعلم Q.

كيف تختلف هذه الدورة عن دورات تطوير وكلاء الذكاء الاصطناعي الأخرى:

على عكس دورات الذكاء الاصطناعي العامة، يستند هذا البرنامج بشكل فريد إلى المنهجيات المثبتة والأمثلة الواقعية من كتاب وكلاء أذكياء عمليون مع OpenAI Gym. يركز على التطبيقات العملية على مستوى الكود لبيئات OpenAI Gym التعليمية مثل Mountain Car و Cart Pole، ويستخدم تقنيات تنفيذ وكلاء التعلم المعزز في PyTorch، ويضم TensorBoard لتصور تقدم التعلم المعزز. من خلال تغطية مجموعة متنوعة من الخوارزميات، بما في ذلك Rainbow RL و PPO و DDPG، فإنه يضمن مجموعة شاملة من المهارات.

ساعات معتمدة: 5 ساعة في اليوم

وضع الدورة: دوام كامل

مقدم الدورة: مركز (Agile Leaders) للتدريب