분류 전체보기 (6) 썸네일형 리스트형 6. Q-value based PER 알고리즘 실험 결과 2021.12.09 실험 내용 TD3알고리즘을 baseline으로 Q-value based PER을 적용해 보았습니다. 실험에 사용된 환경은 mujoco 시뮬레이터의 Walker2d-v2와 Halfcheetah-v2를 사용하였습니다. Q-value based PER이 적용된 TD3와 기본적인 vanilla TD3를 각 환경에 대해 각각 5번씩 학습을 진행하였으며, 보상의 평균을 바탕으로 비교를 진행하였습니다. 실험 결과 결론 실험 결과 예상대로 Q-value based PER 알고리즘이 적용된 TD3가 그렇지 않은 TD3 알고리즘에 비해 높은 샘플 효율을 보여주었습니다. 향후 TD-error 기반의 PER과의 비교 및 결합을 한 알고리즘을 만들고 실험해보는 시간을 가지면 좋을 것 같습니다. 5. 새로운 연구 알고리즘 구체화 2021.11.25 알고리즘 개요 알고리즘의 큰 흐름은 다음과 같습니다. 먼저 일반적인 off-policy 알고리즘과 마찬가지로 에이전트와 환경과의 상호작용 정보(transition 정보)를 replay buffer에 저장합니다. 그 후 학습하는 과정에서 replay buffer에 들어있는 정보들을 Q-value가 큰 순서대로 정렬합니다. (시간복잡도: NlogN) 그 후 N개의 데이터를 골라 mini-batch update를 해줄 것입니다. N개의 데이터를 고를 때 먼저 alpha의 비율로 uniform random하게 데이터를 고른 후, 나머지 데이터들은 Q-value가 높거나 Q-value가 낮은 데이터를 고릅니다. 이 때 alpha의 비율로 uniform random하게 데이터를 고르는 이유는 Q.. 4. 새로운 연구 주제 설정 2021.11.11 새로운 연구 주제 설정의 이유 지잔 연구 주제였던 Active Reward Shaping 알고리즘과 관련하여 mujoco 환경에서 실험을 하였는데 성능이 좋지 않았습니다. 성능은 일반적인 countable 기반 알고리즘과 비슷하였으며 유의미한 결과를 보여주지 못하였습니다. 이에 폴라리스 팀과 새로운 연구 주제를 찾기로 하였습니다. 연구 주제 이번에 연구할 주제는 지난 주제와 마찬가지로 학습 효율을 높이는 것이지만, 방향이 다릅니다. 지난 연구는 에이전트의 보상을 shaping하여 학습 효율을 높이려 했다면, 이번엔 에이전트의 Replay Buffer에 우선순위를 주어 학습 효율을 높이는 방법을 생각하였습니다. 그 이유는 에이전트가 환경과 상호작용하면서 얻은 transition의 정보들.. 3. Active Reward Shaping 알고리즘 실행 결과 2021.10.28 알고리즘 실행 결과 OpenAI Gym에서 제공하는 sparse한 리워드 상태의 환경(가령 Reacher v-2)에서 실험한 결과는 좋지 않았습니다. 기존의 알고리즘과 비등한 결과를 보여주었으며, 특별히 더 좋은 포인트는 없었습니다. 추후에 알고리즘의 reward shaping 부분에서 휴리스틱한 부분을 최소화하고 엄밀하고 정량적인 분석을 통해 다시한번 실험할 예정입니다. 2. 알고리즘 구체화 2021.10.14 1. Sparse Reward 문제 극복을 위한 아이디어 이번 학기 동안 Sparse Reward 문제를 해결하는 알고리즘을 연구해보고자 합니다. 먼저 조금 더 구체적으로 Sparse Reward 환경의 에이전트가 빠르게 학습할 수 있는 알고리즘을 만들고자 합니다. 저는 알고리즘의 '빠르게 학습할 수 있는' 부분을 에이전트의 trajectory의 길이에 따라 능동적으로 보상(Reward)를 보정해주어 구현하고자 합니다. 다시 말해서 아래 그림처럼 목표에 도달한 trajectory가 너무 길다면 보상에 페널티를 주는 형식입니다. trajectory가 길다는 것은 에이전트가 목표에 도달하는 데 많은 시간이 걸렸다는 뜻임으로 '빠른 시간 안에 목표에 도달하는 것이 주요한 상황'이라면 페널티.. 1. 전체적인 연구 방향 및 목표 2021.10.01 Polaris 3D 팀과 함께 제어와 관련된 연구를 진행하기로 하였습니다. 특히 일반적인 제어가 아닌 강화학습을 기반으로하는 제어 문제를 풀기로 결정하였습니다. 강화학습은 알려지지 않았거나 매우 불확실한 비선형 시스템 혹은 확률론적 역학이 있는 시스템의 최적 제어 설계를 위한 강력한 알고리즘을 제공합니다. 따라서 강화학습을 연구한다는 것은 미래에 Polaris 3D사가 맞딱드릴 복잡한 제어 문제에 하나의 해결책을 만든다는 것과 같다고 생각합니다. 이에 Polaris3D사에 도움이 될 수 있을 것 같아 '강화학습'이라는 키워드를 바탕으로 이번 한학기 동안 연구하고자합니다. 그중에서 강화학습 제어의 큰 걸림돌 중 하나인 Sparse Reward Problem을 해결할 수 있는 알고리즘을 .. 이전 1 다음