Policy gradient 계열의 강화학습인 actor-critic 에 대해서 알아보고자 합니다. Actor는 policy를 학습하여 action을 알아내는 네트워크이며, Critic은 state의 value를 알아내는 네트워크 입니다. Monter-Carlo 기반의 REINFORCE 부터 시작하여, 이에 actor-critic을 기반으로 advantage function을 도입한 A2C, 비동기적인 asynchronous한 방법으로 A3C 방법을 살펴보도록 하겠습니다.