단단한 강화 학습 2장 다중 선택 2.6 ~ 정리 단단한 강화 학습 2장 다중 선택 2.6 ~ 정리 2.6 Optimal Initial Value Exploration을 촉진하는 기법을 긍정적 초깃값(Optimal initial value)라고 부른다. …
단단한 강화 학습 2장 다중 선택 ~ 2.5 정리 Bandit Problem은 오직 하나의 상태만 다루는 강화학습 문제이다. 강화 학습은 지도 학습과는 다른 종류의 학습 피드백을 전달한다. 학습자의 행동과 무관하게 정해져 있는 정답이 있는 지도 학습과는 다르게, 강화 학습은 행동에 대한 결과를 피드백 …