728x90 반응형 머신러닝20 [RL] 강화학습 - Q-러닝 개념, 수식 및 Python 구현, 그리고 입실론-그리디 정책 🎶 강화학습 알고리즘 중 하나인 Q-러닝 알고리즘에 대해 알아보자. 0. 들어가기 전에독립적인 행동으로 이루어진 강화 학습 문제는 보통 전 포스트에서 기술했던 마르코프 결정 과정으로 모델링될 수 있지만, 초기에 에이전트는 전이 확률에 대해 알지 못하기 때문에 보상이 얼마나 되는지도 알지 못한다. 즉, T와 R을 알지 못하기 때문에, 적어도 한 번씩은 각 상태와 전이를 경험해봐야 한다.[RL] 강화학습 - 마르코프 결정 과정과 벨만 최적 방정식, Q-가치 반복 알고리즘, 그리고 Python 구현 [RL] 강화학습 - 마르코프 결정 과정과 벨만 최적 방정식, Q-가치 반복 알고리즘, 그리고 Python 구현🎶 강화학습을 위한 알고리즘 중 하나인 마르코프 결정 과정에 대해 알아보자. 1. 마르코프 결정 과.. 2025. 4. 14. [RL] 강화학습 - 마르코프 결정 과정과 벨만 최적 방정식, Q-가치 반복 알고리즘, 그리고 Python 구현 🎶 강화학습을 위한 알고리즘 중 하나인 마르코프 결정 과정에 대해 알아보자. 1. 마르코프 결정 과정1950년대 리처드 벨만(Richard Bellman)이 논문으로 처음 기술한 이 과정은 마르코프 연쇄를 활용한 알고리즘으로, 각 스텝에서 에이전트는 여러 가능한 행동 중 하나를 선택할 수 있고, 전이 확률은 선택된 행동에 따라 달라진다. 특정 상태 전이는 보상을 반환하는데, 에이전트의 목적이 바로 이 보상을 시간이 지남에 따라 최대화하기 위한 정책을 찾는 것이다. 위 그래프를 예로 살펴보자. '상태 S0'에서 시작하면 에이전트는 행동 a0, a1중에 하나를 선택할 수 있는데, a0를 선택하면 50%의 확률로 '상태 S0'으로, 또는 50%의 확률로 '상태 S2'로 상태 전이가 일어나고, a1을 선택하면.. 2025. 4. 10. OpenAI Gym - OpenAI Gym 개념과 cartPole-v1, 그리고 정책 하드코딩 🎶 강화학습을 진행하기 위해 필요한 시뮬레이션 환경, OpenAI Gym 에 대해 알아보자.(🎃 읽기 전, 강화학습의 기초 개념에 대해 다음 포스트를 통해 미리 숙지하고 읽어나가길 권장한다.)[RL] 강화학습(Reinforcement Learning) - 에이전트, 정책, 정책탐색, 환경, 리턴, 할인율 [RL] 강화학습(Reinforcement Learning) - 에이전트, 정책, 정책탐색, 환경, 리턴, 할인율🎶 강화학습에 대해 알아보자! 강화학습이란,기계학습의 한 분야로써, 에이전트(Agent)가 환경(Environment)과 상호작용을 하며 최적의 행동(Policy)을 학습하는 방법을 연구하는 기술을 의미한다. ybbbb.tistory.com 1. OpenAI Gym 이란?강화학습에서 가장.. 2025. 4. 6. 앙상블(Ensemble) - 배깅(Bagging), 부스팅(Boosting), 스태킹 🎶 앙상블 이하 Ensemble Method에 대해 알아보자. 앙상블이란,머신러닝의 민주주의라고도 부르며, 여러 분류기가 각자의 분류 결과를 투표하듯이 내어 놓으면 가장 많은 표를 얻은 결과를 최종 결과로 선택하는 방법이다. (🎃 Majority Voting 라고도 부른다.) 어느 수준의 성능에 도달하면 분류기를 개선하는 일이 매우 어려워지기 때문에, 여러 가지 종류의 분류기를 개별적으로 개선하는 데에 한계가 있을 때 이들의 협력을 이용하는 것이 바로 앙상블인 것이다. 앙상블의 각 모델들은 성격이 서로 다른 것, 즉 개별 분류기의 다양성이 좋아야 앙상블의 성능도 좋아진다. 이 분류기의 다양성을 확보하는 방법이서로 다른 모델로 각각의 분류기를 만들고,각각의 분류기에 대해 서로 다른 학습 데이터를 제공해.. 2025. 1. 30. [RL] 강화학습(Reinforcement Learning) - 에이전트, 정책, 정책탐색, 환경, 리턴, 할인율 🎶 강화학습에 대해 알아보자! 강화학습이란,기계학습의 한 분야로써, 에이전트(Agent)가 환경(Environment)과 상호작용을 하며 최적의 행동(Policy)을 학습하는 방법을 연구하는 기술을 의미한다. 강화학습 안에서, 에이전트는 관측을 하고, 주어진 환경에서 액션(Action)을 취한다. 그리고 그 결과에 따라 환경으로부터 보상(Reward)을 받는다. 여기서 에이전트의 목적은 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것이다. 정책(Policy)은,이러한 에이전트가 주어진 상태에서 어떤 행동을 취할지 결정하는 전략을 의미하는데, 정책의 형태는 확정적 정책과 확률적 정책으로 나눌 수 있다.확정적 정책 : 상태 s가 주어졌을 때 특정 행동 a를 항상 선택하는 정책 확률적 정책 : 상.. 2025. 1. 16. [RL] 강화학습 알고리즘 - PPO (Proximal Policy Optimization) with TRPO, Clipped Surrogate Objective, GAE, 상태가치함수, 엔트로피 보너스 🎶 강화학습의 알고리즘 중 하나인 PPO 알고리즘에 대해 알아보자. PPO는,'정책 기반 강화 학습' 알고리즘으로써, 에이전트(Agent)가 정책(Policy)를 직접 최적화 하는 방법이다. PPO의 대표적인 특징으로는 다음과 같다. 목표 함수 정의 : 정책 𝝅를 파라미터 θ에 따라 최적화한다. 목표는 목표함수의 return 값을 최대화 하는 것이다.그래디언트(gradient) 추정 : 정책의 파라미터 업데이트를 위해, gradient 방식을 사용한다.파라미터는 다음과 같은 수식을 통해 업데이트 된다. 일반적으로 PPO는 TRPO(Trust Region Policy Optimization) 알고리즘의 장점 또한 갖고 있는데,'TRPO 알고리즘'이란 강화학습의 정책을 업데이트 할 때, 정책의 급격한 변.. 2025. 1. 15. 이전 1 2 3 4 다음 728x90 반응형