Укрепване на обучението: Какво е, алгоритми, приложения, пример

Какво е обучение за подсилване?

Подсилващото обучение се определя като метод за машинно обучение, който се занимава с това как софтуерните агенти трябва да предприемат действия в среда. Укрепването на обучението е част от метода на дълбокото обучение, който ви помага да увеличите максимално част от кумулативната награда.

Този метод за обучение на невронни мрежи ви помага да научите как да постигнете сложна цел или да увеличите максимално определено измерение на много стъпки.

В урока за обучение за подсилване ще научите:

Важни термини, използвани в метода за дълбоко подсилване

Ето някои важни термини, използвани в AI за подсилване:

  • Агент: Това е предполагаемо образувание, което извършва действия в среда, за да получи някаква награда.
  • Околна среда (д): Сценарий, с който трябва да се сблъска агент.
  • Награда (R): Незабавно връщане на агент, когато той или тя изпълнява конкретно действие или задача.
  • Състояние (и): Състояние се отнася до текущата ситуация, върната от околната среда.
  • Политика (π): Това е стратегия, която се прилага от агента за определяне на следващото действие въз основа на текущото състояние.
  • Стойност (V): Очаква се дългосрочна възвръщаемост с отстъпка в сравнение с краткосрочната награда.
  • Функция на стойността: То определя стойността на състояние, която е общата сума на възнаграждението. Това е агент, който трябва да се очаква, започвайки от това състояние.
  • Модел на околната среда: Това имитира поведението на околната среда. Той ви помага да правите изводи и да определяте как ще се държи средата.
  • Методи, базирани на модела: Това е метод за решаване на обучителни проблеми с подсилване, който използва модели, базирани на модели.
  • Q стойност или стойност на действие (Q): Стойността на Q е доста подобна на стойността. Единствената разлика между двете е, че тя приема допълнителен параметър като текущо действие.

Как работи обучението за подсилване?

Нека видим един прост пример, който ви помага да илюстрирате механизма за учене на подсилване.

Помислете за сценария на преподаване на нови трикове на вашата котка

  • Тъй като котката не разбира английски или друг човешки език, не можем да й кажем директно какво да прави. Вместо това следваме различна стратегия.
  • Ние подражаваме на ситуация и котката се опитва да реагира по много различни начини. Ако отговорът на котката е желаният начин, ще й дадем риба.
  • Сега, когато котката е изложена на същата ситуация, котката извършва подобно действие с още по -ентусиазъм в очакване да получи повече награда (храна).
  • Това е като да научите, че котката получава „какво да прави“ от положителни преживявания.
  • В същото време котката също научава какво да не прави, когато се сблъска с негативни преживявания.

Обяснение за примера:

Как работи обучението за подсилване



В такъв случай,

  • Вашата котка е агент, който е изложен на околната среда. В този случай това е вашата къща. Пример за състояние може да бъде котката ви да седи и да използвате определена дума за котка за разходка.
  • Нашият агент реагира, като извърши преход на действие от едно „състояние“ в друго „състояние“.
  • Например, вашата котка преминава от седене в ходене.
  • Реакцията на агент е действие, а политиката е метод за избор на действие с дадено състояние в очакване на по -добри резултати.
  • След прехода те могат да получат награда или наказание в замяна.

Укрепващи алгоритми за обучение

Има три подхода за прилагане на алгоритъм за обучение за подсилване.

Въз основа на стойността:

В метод за обучение за подсилване, базиран на стойност, трябва да се опитате да увеличите максимално функция на стойността Срещу) . При този метод агентът очаква дългосрочно връщане на текущите състояния по политика Пи .

Въз основа на политика:

В метода RL, базиран на политики, се опитвате да измислите такава политика, че действието, извършено във всяко състояние, да ви помогне да получите максимална награда в бъдеще.

Два типа базирани на политики методи са:

  • Детерминиран: За всяко състояние същото действие се произвежда от политиката π.
  • Стохастично: Всяко действие има определена вероятност, която се определя от следното уравнение. Стохастична политика: | _+_ |

Въз основа на модел:

В този метод на обучение за подсилване трябва да създадете виртуален модел за всяка среда. Агентът се научава да се представя в тази специфична среда.

Характеристики на обучението за подсилване

Ето важни характеристики на обучението за подсилване

  • Няма надзорник, само реален номер или сигнал за награда
  • Последователно вземане на решения
  • Времето играе решаваща роля в проблемите с подсилването
  • Обратната връзка винаги се забавя, а не моментално
  • Действията на агента определят последващите данни, които получава

Видове обучение за подсилване

Два вида методи за обучение за подсилване са:

Положителен:

Определя се като събитие, което се случва поради специфично поведение. Той увеличава силата и честотата на поведението и влияе положително върху действията, предприети от агента.

Този тип подсилване ви помага да увеличите максимално производителността и да поддържате промяната за по -продължителен период. Прекалено голямото подсилване обаче може да доведе до свръх оптимизиране на състоянието, което може да повлияе на резултатите.

Отрицателни:

Отрицателното подсилване се дефинира като засилване на поведението, което възниква поради отрицателно състояние, което трябваше да бъде спряно или избегнато. Той ви помага да определите минималната ефективност. Недостатъкът на този метод обаче е, че той осигурява достатъчно, за да отговори на минималното поведение.

Учене на модели на подсилване

Има два важни модела на обучение при подсилващо обучение:

  • Процес на решение на Марков
  • Q обучение

Процес на решение на Марков

Следните параметри се използват за получаване на решение:

  • Набор от действия- A
  • Множество състояния -S
  • Награда- R
  • Политика- n
  • Стойност- V

Математическият подход за картографиране на решение при подсилване на обучението е повторен като процес на решение на Марков или (MDP).

Q-обучение

Q обучението е базиран на ценности метод за предоставяне на информация, за да информира какви действия трябва да предприеме агент.

Нека разберем този метод със следния пример:

  • В сградата има пет стаи, които са свързани с врати.
  • Всяка стая е номерирана от 0 до 4
  • Външната част на сградата може да бъде една голяма външна зона (5)
  • Врати номер 1 и 4 водят към сградата от стая 5

След това трябва да свържете стойност на награда към всяка врата:

  • Вратите, които водят директно към целта, имат награда от 100
  • Вратите, които не са директно свързани с целевата стая, дават нулева награда
  • Тъй като вратите са двупосочни и за всяка стая са назначени две стрелки
  • Всяка стрелка в горното изображение съдържа стойност на незабавна награда

Обяснение:

На това изображение можете да видите, че стаята представлява състояние

Движението на агента от една стая в друга представлява действие

В изображението по-долу състояние е описано като възел, докато стрелките показват действието.

Например агент преминава от стая номер 2 до 5

  • Начално състояние = състояние 2
  • Състояние 2-> състояние 3
  • Състояние 3 -> състояние (2,1,4)
  • Състояние 4-> състояние (0,5,3)
  • Състояние 1-> състояние (5,3)
  • Състояние 0-> състояние 4

Укрепване на обучението срещу обучено обучение

Параметри Укрепване на обучението Обучение под надзор
Стил на решениеподкрепящото обучение ви помага да вземате решенията си последователно.При този метод се взема решение за въведените данни в началото.
Работи поРаботи върху взаимодействие с околната среда.Работи върху примери или дадени примерни данни.
Зависимост от решениетоВ метода RL решението за учене е зависимо. Следователно трябва да дадете етикети на всички зависими решения.Контролирано изучаване на решенията, които са независими едно от друго, така че за всяко решение се дават етикети.
Най -подходящПоддържа и работи по -добре в AI, където преобладава човешкото взаимодействие.Работи се предимно с интерактивна софтуерна система или приложения.
ПримерИгра на шахРазпознаване на обекти

Приложения за обучение за подсилване

Ето приложения за обучение за подсилване:

  • Роботика за индустриална автоматизация.
  • Планиране на бизнес стратегия
  • Машинно обучение и обработка на данни
  • Той ви помага да създадете системи за обучение, които предоставят персонализирани инструкции и материали според изискванията на студентите.
  • Управление на самолети и управление на движението на роботи

Защо да използвате обучение за подсилване?

Ето основните причини за използване на обучение за подсилване:

  • Помага ви да откриете коя ситуация се нуждае от действие
  • Помага ви да откриете кое действие носи най -висока награда за по -дълъг период.
  • Укрепването на обучението също предоставя на обучаващия агент функция за възнаграждение.
  • Това също му позволява да измисли най -добрия метод за получаване на големи награди.

Кога да не използвате обучение за подсилване?

Не можете да приложите подсилващ модел на обучение е цялата ситуация. Ето някои условия, когато не трябва да използвате подсилващ модел на обучение.

  • Когато имате достатъчно данни, за да решите проблема с контролиран метод на обучение
  • Трябва да запомните, че обучението за подсилване е компютърно натоварващо и отнема много време. особено когато пространството за действие е голямо.

Предизвикателства на обучението за подсилване

Ето основните предизвикателства, с които ще се сблъскате, докато печелите от армировка:

  • Дизайн на функции/награди, които трябва да бъдат много ангажирани
  • Параметрите могат да повлияят на скоростта на обучение.
  • Реалистичните среди могат да имат частична наблюдаваност.
  • Твърде много подсилване може да доведе до претоварване на състоянията, което може да намали резултатите.
  • Реалистичните среди могат да бъдат нестационарни.

Резюме:

  • Подсилващото обучение е метод за машинно обучение
  • Помага ви да откриете кое действие носи най -висока награда за по -дълъг период.
  • Три метода за подсилване на обучението са 1) Базирано на ценности 2) Базирано на политики и Моделно базирано обучение.
  • Агент, състояние, възнаграждение, среда, функция на стойността Модел на средата, Методи, базирани на модели, са някои важни термини, използвани в метода за учене на RL
  • Примерът за обучение за подсилване е, че вашата котка е агент, който е изложен на околната среда.
  • Най -голямата характеристика на този метод е, че няма надзорник, само реален номер или сигнал за награда
  • Два вида обучение за подсилване са 1) Положително 2) Отрицателно
  • Два широко използвани модела на обучение са 1) Процес на решение на Марков 2) Q обучение
  • Подсилващият метод на обучение работи върху взаимодействието с околната среда, докато методът на контролиран учене работи върху дадени примерни данни или пример.
  • Методите за обучение или подсилване са: Роботика за индустриална автоматизация и планиране на бизнес стратегия
  • Не трябва да използвате този метод, когато имате достатъчно данни за решаване на проблема
  • Най -голямото предизвикателство на този метод е, че параметрите могат да повлияят на скоростта на обучение