목차 1. Q learning이란? 2. Q러닝을 이용한 미로찾기 3. Q러닝을 이용한 Cartpole 4. DQN을 이용한 Cartpole 1. Q learning이란? Q러닝이란? 모델이 없는 Model-Free상태에서 학습하는 강화학습으로 유한한 마르코프 결정과정(FMDP)에서 특정 Agent가 특정 상황에서 특정 행동을 할 수 있는 최적의 Policy를 배우는 것. 현재 상태로부터 시작해 모든 연속적인 단계들을 거쳤을 때 전체 보상의 예측값을 극대화하는 것을 목표로 한다. 특정 State에서 행하는 Action의 가치를 평가하고, 그 가치를 극대화 하는 쪽으로 행동하는 것이라고 볼 수 있겠습니다. 위 식에서 감마는 Discount Factor인데, 0~1사이로 현재로부터 멀리 떨어진 보상의 가치가..