본문 바로가기
728x90
반응형

전체 글77

[RL] 강화학습 - 마르코프 결정 과정과 벨만 최적 방정식, Q-가치 반복 알고리즘, 그리고 Python 구현 🎶 강화학습을 위한 알고리즘 중 하나인 마르코프 결정 과정에 대해 알아보자. 1. 마르코프 결정 과정1950년대 리처드 벨만(Richard Bellman)이 논문으로 처음 기술한 이 과정은 마르코프 연쇄를 활용한 알고리즘으로, 각 스텝에서 에이전트는 여러 가능한 행동 중 하나를 선택할 수 있고, 전이 확률은 선택된 행동에 따라 달라진다. 특정 상태 전이는 보상을 반환하는데, 에이전트의 목적이 바로 이 보상을 시간이 지남에 따라 최대화하기 위한 정책을 찾는 것이다. 위 그래프를 예로 살펴보자. '상태 S0'에서 시작하면 에이전트는 행동 a0, a1중에 하나를 선택할 수 있는데, a0를 선택하면 50%의 확률로 '상태 S0'으로, 또는 50%의 확률로 '상태 S2'로 상태 전이가 일어나고, a1을 선택하면.. 2025. 4. 10.
선형대수 - 역행렬의 개념과 역행렬을 구하는 방법, 그리고 연립일차방정식 풀기 🎶 선형대수에 쓰이는 역행렬의 개념에 대해 살펴보고, 이를 구하는 방법과 연립일차방정식을 푸는 데 활용하는 방법에 대해 알아보자. 2.6 역행렬 1. 역행렬이란?정사각행렬 A와 단위행렬 I에 대해,  를 만족하는 행렬 B가 존재하면 A를 '가역행렬(invertible matrix)' 내지는 정칙행렬(nonsingular matrix)라 한다. 이 때, B를 'A의 역행렬(inverse matrix)'라 하고, 로 표시한다. 참고로, 정사각행렬 A가 가역행렬이면, A의 역행렬은 유일한데, 그 이유는 다음과 같다.만약 B와 C를 A의 역행렬이라고 하자. 그러면,  에 의해 간단하게 증명된다. 더해서, n차 정사각행렬 A, B에 대해 A와 B가 모두 가역행렬이면, 이들의 곱 AB도 가역행렬이고 다음과 같은 .. 2025. 4. 8.
OpenAI Gym - OpenAI Gym 개념과 cartPole-v1, 그리고 정책 하드코딩 🎶 강화학습을 진행하기 위해 필요한 시뮬레이션 환경, OpenAI Gym 에 대해 알아보자.(🎃 읽기 전, 강화학습의 기초 개념에 대해 다음 포스트를 통해 미리 숙지하고 읽어나가길 권장한다.)[RL] 강화학습(Reinforcement Learning) - 에이전트, 정책, 정책탐색, 환경, 리턴, 할인율 [RL] 강화학습(Reinforcement Learning) - 에이전트, 정책, 정책탐색, 환경, 리턴, 할인율🎶 강화학습에 대해 알아보자! 강화학습이란,기계학습의 한 분야로써, 에이전트(Agent)가 환경(Environment)과 상호작용을 하며 최적의 행동(Policy)을 학습하는 방법을 연구하는 기술을 의미한다. ybbbb.tistory.com 1. OpenAI Gym 이란?강화학습에서 가장.. 2025. 4. 6.
선형대수 - 여러가지 행렬들과 행렬연산 성질들 🎶 선형대수에서 다루는 여러가지 행렬에 대해 자세히 알아보도록 하자. 2.5 여러가지 행렬들과 각 행렬들의 성질 1. 여러가지 행렬들행의 개수와 열의 개수가 같은 행렬, n x n 행렬을 n차 정사각행렬(square matrix) 또는 'n차 정방행렬'이라 한다. 위에서 (i, i) 성분들을 A의 대각성분(diagonal entry)이라 하고, 대각성분을 제외한 모든 성분들이 0인 정사각행렬을 '대각행렬(diagonal matrix)'라 부른다. 정사각행렬의 대각성분 아래, 혹은 위에 있는 모든 성분들이 0인 행렬을 '삼각행렬(triangular matrix)'이라고 부르는데, A와 같은 꼴의 행렬을 '상삼각행렬(upper triangular matrix)', B와 같은 꼴의 행렬을 '하삼각행렬(low.. 2025. 4. 4.
선형대수 - 가우스-조르단 소거법과 가우스 기본행연산 🎶 선형대수에서 행렬을 이용해 연립방정식을 푸는 방법에 대해 자세히 알아보자. 2.3 행렬을 이용한 연립방정식 계산 1. 가우스 기본행연산다음 세 가지를 '기본행연산(elementary row operations)'이라 한다.한 행에 상수를 곱해 다른 행에 더함한 행에 0이 아닌 상수를 곱함서로 다른 두 행을 교환함연립일차방정식에 기본행연산을 시행해 얻은 연립일차방정식은 처음 주어진 연립일차방정식과 본질적으로 같기 때문에, 이를 '동치(equivalence)'라 한다. 즉, 행렬 A에 유한 기본행연산을 시행해 얻은 행렬 B는, A와 행동치(row equivalence)라 한다.참고로, 계수행렬(coefficient matrix)에 상수항들을 첨가한 행렬을 '첨가행렬(argmented matrix)'이라.. 2025. 4. 2.
[JS] 예외처리 - 예외처리의 필요성과 try-catch-finally 문, 그리고 Error 객체의 생성 🎶 자바스크립트에서 사용되는 예외처리 방법에 대해 알아보자. 1. 예외 처리의 필요성에러가 발생하지 않는 코드를 작성하는 것은 불가능한데, 이러한 에러에 대해 대처하지 않고 방치하면 프로그램은 강제 종료되기 마련이다.console.log('test'); // test func(); // 오류 발생 -> 밑의 코드 실행 xconsole.log('end_test'); 이에 try - catch 문을 사용해 발생한 에러에 적절하게 대응해주면 프로그램이 강제로 종료되지 않고 계속해서 코드를 실행시킬 수 있다.console.log('test'); // testtry{ func();} catch(error){ console.log(error); // ReferenceError}console.log('e.. 2025. 3. 31.
728x90
반응형