2021.12.09
실험 내용
TD3알고리즘을 baseline으로 Q-value based PER을 적용해 보았습니다. 실험에 사용된 환경은 mujoco 시뮬레이터의 Walker2d-v2와 Halfcheetah-v2를 사용하였습니다. Q-value based PER이 적용된 TD3와 기본적인 vanilla TD3를 각 환경에 대해 각각 5번씩 학습을 진행하였으며, 보상의 평균을 바탕으로 비교를 진행하였습니다. 1
실험 결과
결론
실험 결과 예상대로 Q-value based PER 알고리즘이 적용된 TD3가 그렇지 않은 TD3 알고리즘에 비해 높은 샘플 효율을 보여주었습니다. 향후 TD-error 기반의 PER과의 비교 및 결합을 한 알고리즘을 만들고 실험해보는 시간을 가지면 좋을 것 같습니다.
- Twin Delayed Deep Deterministic Policy Graident [본문으로]
'일지' 카테고리의 다른 글
5. 새로운 연구 알고리즘 구체화 (0) | 2021.12.21 |
---|---|
4. 새로운 연구 주제 설정 (0) | 2021.12.21 |
3. Active Reward Shaping 알고리즘 실행 결과 (0) | 2021.12.15 |
2. 알고리즘 구체화 (0) | 2021.12.07 |
1. 전체적인 연구 방향 및 목표 (0) | 2021.11.12 |