6. Q-value based PER 알고리즘 실험 결과

2021.12.09

실험 내용

TD3^[각주:1]알고리즘을 baseline으로 Q-value based PER을 적용해 보았습니다. 실험에 사용된 환경은 mujoco 시뮬레이터의 Walker2d-v2와 Halfcheetah-v2를 사용하였습니다. Q-value based PER이 적용된 TD3와 기본적인 vanilla TD3를 각 환경에 대해 각각 5번씩 학습을 진행하였으며, 보상의 평균을 바탕으로 비교를 진행하였습니다.

실험 결과

Walker2d-v2 비교 (초록색 선이 Q-value based PER이 적용된 TD3, 파란색 선이 vanilla TD3)

Halfcheetah-v2 비교 (초록색 선이 Q-value based PER이 적용된 TD3, 파란색 선이 vanilla TD3)

결론

실험 결과 예상대로 Q-value based PER 알고리즘이 적용된 TD3가 그렇지 않은 TD3 알고리즘에 비해 높은 샘플 효율을 보여주었습니다. 향후 TD-error 기반의 PER과의 비교 및 결합을 한 알고리즘을 만들고 실험해보는 시간을 가지면 좋을 것 같습니다.

Twin Delayed Deep Deterministic Policy Graident [본문으로]

'일지' 카테고리의 다른 글

5. 새로운 연구 알고리즘 구체화 (0)	2021.12.21
4. 새로운 연구 주제 설정 (0)	2021.12.21
3. Active Reward Shaping 알고리즘 실행 결과 (0)	2021.12.15
2. 알고리즘 구체화 (0)	2021.12.07
1. 전체적인 연구 방향 및 목표 (0)	2021.11.12

리빙스튜디오B_Polaris3D_김장원

6. Q-value based PER 알고리즘 실험 결과

2021.12.09

실험 내용

실험 결과

결론

'일지' 카테고리의 다른 글

티스토리툴바

6. Q-value based PER 알고리즘 실험 결과

2021.12.09

실험 내용

실험 결과

결론

'일지' 카테고리의 다른 글

'일지' Related Articles

티스토리툴바