본문 바로가기

일지

6. Q-value based PER 알고리즘 실험 결과

2021.12.09

 

실험 내용

TD3[각주:1]알고리즘을 baseline으로 Q-value based PER을 적용해 보았습니다. 실험에 사용된 환경은 mujoco 시뮬레이터의 Walker2d-v2와 Halfcheetah-v2를 사용하였습니다. Q-value based PER이 적용된 TD3와 기본적인 vanilla TD3를 각 환경에 대해 각각 5번씩 학습을 진행하였으며, 보상의 평균을 바탕으로 비교를 진행하였습니다.

 

 

실험 결과

Walker2d-v2 비교 (초록색 선이 Q-value based PER이 적용된 TD3, 파란색 선이 vanilla TD3)
Halfcheetah-v2 비교 (초록색 선이 Q-value based PER이 적용된 TD3, 파란색 선이 vanilla TD3)

 

결론

실험 결과 예상대로 Q-value based PER 알고리즘이 적용된 TD3가 그렇지 않은 TD3 알고리즘에 비해 높은 샘플 효율을 보여주었습니다. 향후 TD-error 기반의 PER과의 비교 및 결합을 한 알고리즘을 만들고 실험해보는 시간을 가지면 좋을 것 같습니다.

 

 

 

  1. Twin Delayed Deep Deterministic Policy Graident [본문으로]