목록Machine Learning/RL (2)
elevne's Study Note

코드로 작성한 톰슨 샘플링 문제가 어떻게 이루어지는 것인지 생각해본다. 우선 각 손잡이를 한 번씩 모두 당기게된다. 이 때 각 (모르는)기계의 각 확률에 따라서 결과가 산출될 것이다. 그 후부터는 각 슬롯머신에 대해 두 개의 새 변수가 도입되는데, 하나는 해당 슬롯머신이 보상으로 0을 반환한 횟수, 다른 하나는 해당 슬롯머신이 보상으로 1을 반환한 횟수이다. 이를 코드에서는 win, lose로 표현하였다. 이 두 개를 사용하여 베타분포를 활용할 수 있는 것이다. 위 베타분포 매개변수 a, b에 대해서 베타분포는 아래와 같은 규칙을 지닌다. 매개변수 b가 동일한 두 개의 베타분포가 있을 때, 매개변수 a가 큰 분포가 오른쪽에 있다. 매개변수 a가 동일한 두 개의 베타분포가 있을 때, 매개변수 b가 큰 분포..

강화학습이란 분야에 대한 공부를 처음 시작해보았다. 우선 강화학습의 정의부터 짚고 넘어가야 했다. 강화학습이란 컴퓨터 Agent가 반복적인 시행착오 상호작용을 통해 작업 수행 방법을 학습하는 Machine Learning 기법의 한 유형이다. 이 학습법을 통해서 Agent는 인간의 개입 혹은 작업 수행을 위한 명시적인 프로그래밍 없이 작업에 대한 보상 Metric을 최대화 하는 결정을 내릴 수 있다고 한다. 강화학습에는 아래와 같은 5가지의 원칙이 있다고 한다. 1. 입출력 시스템 모든 AI 모델은 입력과 출력의 보편적인 원칙에 기반한다. 강화학습에서 입력은 input state, 출력은 AI가 수행하는 행동 즉 action이라고 불린다. 그 사시에는 상태를 입력으로 취하고 행동을 출력으로 반환하는 함수..