강화학습은 에이전트가 환경과 직접 상호작용하며 순차적으로 행동들을 선택하면서 보상을 최대화하는 방향으로 스스로 학습 (순차적 결정 문제)
에이전트 agent : 의사결정을 하는 대상
환경 environment : 에이전트의 의사결정을 반영하고 에이전트에게 정보를 주는 역할
행동 action : 에이전트가 의사 결정을 통해 취할 수 있는 행동
(출처 : 파이토치와 유니티 ML-Agents로 배우는 강화학습)
이산적인 (discrete) 행동 (선택지 중 하나를 선택하는 것)과 연속적인 (continuous) 행동 (특정 양만큼 행동하는 것)이 존재함
보상 reward : 선택한 행동에 대하여 환경으로부터 받는 신호
순차적 결정 문제 : 특정 상태에서 취하는 행동이 다음 상태에 영향을 줌
➡ 이러한 순차적 결정 문제를 수학적으로 표현해야 에이전트가 학습할 수 있음
환경 | 상태 | 행동 | 보상 | |
---|---|---|---|---|
슈퍼마리오 | 게임 화면 | 현재 위치, 속도, 장애물 위치 등 | 점프, 오른쪽, 왼쪽 등 | 코인 획득, 깃발 도달 (스테이지 클리어) 등 |
자율주행 | 도로 및 교통 상황 | 속도, 위치, 신호 등 | 가속, 감속, 차선 변경 등 | 차선 유지, 신호 준수, 목적지 도착 등 |
에이전트가 장기적으로 최대 누적 보상을 얻을 수 있도록 하는 최적 정책을 학습하는 것
즉, 순간적인 보상을 최대화하는 것이 아니라 누적 보상이 최대가 되는 행동을 선택하도록 한다.