머신러닝의 유형

강화학습 (Reinforcement Learning)

강화학습은 에이전트환경과 직접 상호작용하며 순차적으로 행동들을 선택하면서 보상을 최대화하는 방향으로 스스로 학습 (순차적 결정 문제)

 이러한 순차적 결정 문제를 수학적으로 표현해야 에이전트가 학습할 수 있음

강화학습의 예시

환경 상태 행동 보상
슈퍼마리오 게임 화면 현재 위치, 속도, 장애물 위치 등 점프, 오른쪽, 왼쪽 등 코인 획득, 깃발 도달 (스테이지 클리어) 등
자율주행 도로 및 교통 상황 속도, 위치, 신호 등 가속, 감속, 차선 변경 등 차선 유지, 신호 준수, 목적지 도착 등

강화학습의 목표

에이전트가 장기적으로 최대 누적 보상을 얻을 수 있도록 하는 최적 정책을 학습하는 것

즉, 순간적인 보상을 최대화하는 것이 아니라 누적 보상이 최대가 되는 행동을 선택하도록 한다.