فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

پایانامه محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی

اختصاصی از فایل هلپ پایانامه محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی دانلود با لینک مستقیم و پر سرعت .

پایانامه محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی


پایانامه محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی

شلینک پرداخت و دانلود *پایین مطلب*

 

فرمت فایل:Word (قابل ویرایش و آماده پرینت)

 

تعداد صفحه:102

فهرست و توضیحات:

فهرست مطالب

چکیده  1

مقدمه  3

1- کلیات     5

1-1-   سئوالات کلیدی پروژه 8

1-2-   مفروضات پروژه 9

1-3-   روش کار و تحقیق    10

1-4-   ساختاربندی پروژه   10

2- تئوری بازی    13

2-1-   رقابت در عامل‌ها    15

2-1-1-  بازیهای بدیهی 15

2-1-2-  بازیهای بدون رقابت 15

2-1-3-  بازیهای کاملاً رقابتی 16

2-1-4-  بازیهای با تضاد جزئی    16

2-2-   ساختار بازیها 17

2-2-1-  بازیهای نرمال 17

2-2-2-  بازیهای پویا  18

2-3-   مفهوم غلبه    20

2-3-1-  غلبه اکید در استراتژی محض    20

2-3-2-  غلبه ضعیف 21

2-3-3-  غلبه اکید در استراتژیهای مرکب     22

2-4-   نقطه تعادل نش 22

2-5-   نقطه تعادل کامل زیربازی 24

2-6-   بهینگی پارتو  24

2-7-   مفاهیم بسط یافته تعادل نش    25

2-7-1-  نقطه تعادل هم بسته 25

2-7-2-  نقطه تعادل ε   27

2-7-3-  نقطه تعادل کامل دست لرزان    27

2-7-4-  نقطه تعادل صحیح    30

2-7-5-  نقطه تعادل پاسخ دو جانبه‌ای (QRE)  31

2-7-6-  نقطه تعادل شبه کامل 33

2-7-7-  نقطه تعادل سلطه‌جو  33

2-7-8-  نقطه تعادل متوالی  35

3- روشهای کلاسیک محاسبه نقطه تعادل نش 38

3-1-   محاسبه نقطه تعادل نش در بازیهای نرمال 38

3-1-1-  Lamke-hawson method    38

3-1-2-  Simple search method 47

3-2-   محاسبه نقطه تعادل نش در بازیهای پویا  51

3-2-1-  الگوریتم استقراء معکوس  51

4- یادگیری تقویتی 55

4-1-   مبانی اولیه   56

4-2-   خاصیت مارکوف  57

4-3-   فرآیند تصمیم گیری مارکوف     58

4-3-1-  تابع ارزش 60

4-3-2-  تابع ارزش بهینه    62

4-3-3-  روش‌های حل فرآیندهای تصمیم گیری مارکوف 63

4-3-4-  برنامه ریزی پویا   63

4-3-5-  روش مونت کارلو 64

4-3-6-  روش تفاضل زمانی    65

4-4-   روش‌های یادگیری تک عاملی 67

4-4-1-  الگوریتم Sarsa  68

4-4-2-  الگوریتم Q-Learning   68

4-4-3-  الگوریتم Dyna_Q     70

5- یادگیری تقویتی چندعاملی 73

5-1-   تاریخچه   73

5-1-1-  یادگیری Nash-Q 73

5-1-2-  یادگیری Friend or Foe   74

5-1-3-  یادگیری Asymmetric-Q  75

5-1-4-  Minimax    76

5-1-5-  Infinitesimal Gradient Ascent (IGA) 77

5-1-6-  Wolf-IGA   79

5-1-7-  (Policy dynamic wolf) PD-Wolf   80

5-2-   فرآیند بازی مارکوف 81

6- محاسبه نقطه تعادل نش در یادگیری تقویتی n-عامله  86

6-1-   بازیهای مارکوف نرمال n-عامله 87

6-1-1-  استفاده از الگوریتم ژنتیک در محاسبه نقطه تعادل نش    89

6-2-   بازیهای مارکوف پویا n-عامله  91

6-2-1-  استفاده از روش استقراء معکوس تعمیم یافته در محاسبه نقطه تعادل نش   92

7- شبیه سازی 95

7-1-   شبیه‌سازی در محیط مشبک   95

7-1-1-  استفاده از Q-Learning در محیط‌های چندعاملی     95

7-1-2-  مقایسه الگوریتم Nash-Q و Q-Learning  97

7-1-3-  محاسبه نقطه تعادل نش در یادگیری تقویتی چندعاملی 98

7-2-   شبیه سازی بازار برق 100

7-2-1-  مطالعه موردی  104

8- نتیجه‌گیری 111

مراجع  114

ABSTRACT   123

 

 

 

 

چکیده

 

در این رساله، روش مناسبی جهت محاسبه نقطه تعادل نش در الگوریتم‌های یادگیری تقویتی چندعاملی با تعداد زیاد عامل‌ها مطرح شده‌است، که قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ایجاد مصالحه بین اکتشاف- استخراج، محاسبات را به صورت بهینه کاهش دهند. ترکیب یادگیری تقویتی تک- عاملی و تئوری بازی ایده اصلی اکثر روشهای یادگیری چندعاملی است. این روش‌ها سعی دارند تا کل فرآیند یادگیری را به تعدادی متناهی از حالت‌های تصمیم‌گیری چندعاملی با خاصیت مارکوف تقسیم کرده و با انتخاب نقطه تعادل نش در هر کدام از این مراحل به تدبیر بهینه برای هر عامل همگرا شوند. بنابراین محاسبه نقطه تعادل نش مسئله مهمی است که در حال حاضر مشکلاتی شامل پیچیدگی محاسبات در روشهای شناخته شده محاسبه نقطه تعادل نش، چندگانگی نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده که اکثر روشهای پیشنهادی یادگیری تقویتی چندعاملی جایگاه مناسبی در حل مسائل دنیای واقعی پیدا نکنند. ناگفته نماند که تقریباً تمام روشهای یادگیری تقویتی چندعاملی مطرح شده، مبتنی بر روشهای off-policy بوده‌اند که نیازی به در نظر گرفتن مسئله رویه انتخاب عمل و اکتشاف در اثبات همگرایی ندارند. بنابراین در رویه‌های اجرایی پیشنهاد داده‌اند که ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بین اکتشاف و استخراج برقرار شود.


دانلود با لینک مستقیم


پایانامه محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی