임성은조교님의 댓글
임성은조교 작성일
                                        a값에 도달하는 것 자체가 Q값을 변화시킵니다.
2문단에서 보면 Q값은 (보상값)+(바로 다음단계의 가능한 Q값중 가장 큰 값) 으로 정해집니다. a에 도달하면 보상값은 0이지만 (바로 다음단계의 가능한 Q값중 가장 큰 값)=1 이므로 a에서의 Q값은 1입니다.                
강화학습 Q값
작성자Littletree
본문