Mastering Diverse Domains through World Models
범용적인 강화학습 알고리즘을 개발하는 것은 인공지능 분야의 오랜 도전 과제이다. 기존 강화학습 알고리즘들은 특정 과업에 대해 잘 작동하지만, 새로운 분야에 적용하기 위해서는 많은 인간 전문가의 개입과 실험이 필요하다. DreamerV3는 이러한 한계를 극복하고, 하나의 설정(con...
범용적인 강화학습 알고리즘을 개발하는 것은 인공지능 분야의 오랜 도전 과제이다. 기존 강화학습 알고리즘들은 특정 과업에 대해 잘 작동하지만, 새로운 분야에 적용하기 위해서는 많은 인간 전문가의 개입과 실험이 필요하다. DreamerV3는 이러한 한계를 극복하고, 하나의 설정(con...
이 논문에서는 인간의 유연한 계획 능력과 반대로 비유연적인 습관적 행동을 설명하는 데 있어서, 과거 연산의 재사용(reuse of previous computation)이라는 개념을 중심으로 한 새로운 모델을 제안한다.
이전의 ‘The hippocampus as a predictive map’ 논문에서도 SR에 관련된 내용을 다루었고, 이 논문에서도 그럴 것이다. 하지만 두 논문이 Successor feature/representation을 다루는 방식에는 약간의 차이가 있기에, 이 부분을 먼저 ...
기능적 신경영상(fMRI)은 종종 “뇌에서 어떤 일이 일어나는지”만 보여줄 뿐, “어떻게 일어나는지”에 대한 정보를 제공하지 못한다는 비판을 받아왔다. 그러나 최근의 분석 기법들은 심리학에서 관심을 가지는 개념들에 대한 접근을 가능하게 만들고 있다. 저자는 뇌의 대규모 신경 표현 ...
기능적 자기공명영상(fMRI) 데이터는 뇌의 각 지점(즉, 복셀)에서 시간별 혈중 산소 농도 의존 신호(BOLD signal) 값을 제공한다. 전통적인 단변량(univariate) 분석에서는 개별 복셀을 독립적으로 분석하거나 특정 뇌 영역 내 복셀의 신호를 평균하여 비교한다. 반면...
이 논문의 해당 부분에서는 hippocampus(해마)의 기능을 기존의 인지 지도(cognitive map) 가설과 대비되는 예측 지도(predictive map) 가설을 강화학습(RL) 관점에서 설명하고 있다.
An illustrative example: the multi-armed bandit task
컴퓨테이셔널 모델링(computational modeling)은 심리학과 신경과학 연구에서 중요한 혁신을 가져왔다. 실험 데이터를 모델에 적합하게 피팅(fitting)하면 행동의 근본적인 알고리즘을 탐구하고, 계산적 변수의 신경학적 상관(neural correlates)을 찾을 수...
이전 포스트에서 하지 못했던 논문의 결과 부분을 알아보겠다.
인과 관계를 학습하는 능력은 생존에 필수적이다. 인간의 두뇌는 높은 기능적 유연성을 지니고 있어 효과적인 인과 추론(causal inference)이 가능하며, 이는 다양한 학습 과정의 근간을 이룬다. 기존 연구들은 환경적 요인이 인과 추론에 미치는 영향에 초점을 맞추어왔지만, 본...
이 논문은 기계 지능이 단순한 사고 도구를 넘어 인간과 함께 사고하는 ‘사고 파트너(thought partner)’로 기능하도록 설계하는 방법을 탐구한다. 합리적이고, 통찰력 있으며, 지식이 풍부하고, 신뢰할 수 있는 AI 시스템이 인간과 협력하여 사고할 수 있도록 하는 것이 목표...
강화 학습(Reinforcement Learning, RL)에서는 환경에서 직면하는 상황(상태, state)과 그에 따른 결과를 순차적으로 경험하면서, 특정 행동이 얼마나 좋은 결과를 가져오는지를 학습하는데, 이 과정에서 두 가지 주요 학습 방식이 존재한다. 첫 번째는 모델 자유 ...
이 연구는 인간 의사결정이 적대적 공격(adversarial attacks)에 대해 취약할 수 있음을 실험적으로 입증하고, 이를 설명하는 이론적 모델을 제시하고 있다. 기존의 연구들은 주로 딥러닝 모델이 적대적 공격에 취약하다는 점을 강조했으나, 이 논문은 인간의 의사결정 과정도 ...
우리의 뇌에는 행동 선택을 조절하는 두 가지 시스템, model-based와 model-free 시스템이 존재한다는 신경학적인 증거가 존재한다. 하지만 특정한 순간에, 어떤 시스템이 행동을 주도하는지에 대한 메커니즘은 정확하게 밝혀진 바가 없다. 본 논문에서는 두 모델 사이의 중재...
논문의 이해를 위해 SARSA, Q-learning, DQN 등의 기본적인 강화학습 알고리즘, 그리고 뇌에서 일어나는 시각 처리 과정(Visual pathway)에 대한 이해를 권장합니다.
현재까지 강화학습 알고리즘은 매우 다양한 방면으로 발전해 왔다. 하지만 강화학습을 처음 공부하는 사람의 입장에서는 이런 알고리즘이 어떻게 얽혀있는지 감을 잡기 쉽지 않다. 그래서 강화학습과 관련된 논문을 읽을 때 이 알고리즘이 어떠한 방법론을 사용하는 알고리즘인지 스스로 감을 쉽게...