금융/AI/IT 기사
TD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘입니다. DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징입니다. every-visit MC에서는 실제 에피소드가 끝나고 받게되는 보상을 사용해서 value function을 업데이트 하였습니다. 하지만 TD에서는 실제 보상과 다음 step에 대한 미래추정가치를 사용해서 학습을 하게 됩니다. 이때 사용하는 보상과 value function의 합을 TD target이라고합니다. […]
Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. 그리고 GPI를 따르는 방식으로 최적화 정책을 찾아냈었습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 […]
3. Markov Decision Process 이전까지 살펴보았던 Markov reward process 에 의사결정에 대한 개념을 더 추가합니다. 이를 Markov decision process (MDP) 라고 합니다. 당연히 모든 state가 Markov 인 환경에서 이루어집니다. A 라고 하는 action이 가능한 집합을 표현하는 notation이 하나가 더 추가가 되었습니다. 이를 통해서 현재 상태 s 에서 a 라고 하는 action을 할 때 다음 상태 s’ […]
1. Markov Processes 이번에 다루게 될 MDP에 대해서 소개를 하면 RL, 강화학습에서 가장 중요한 핵심 이론이 됩니다. 이 강의에서는 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정합니다. (fully observable) 설명을 하기 쉬운 환경이지만 실제로 우리가 살고 있는 환경은 그렇치 않죠. 우리는 아무리 노력을 해도 세상의 모든 뉴스를 다 보고 알수는 없기 때문입니다. 어떠한 […]
Deepmind에 David silver 교수님의 강의를 기반으로 하여 강화학습에 대한 이론적인 내용들을 하나씩 살펴 보겠습니다. 강의 영상과 자료들은 아래의 링크에서 볼 수 있습니다. http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 1. About RL 강화학습(RL)은 1979년도에 처음 시작했다고 서튼 교수님의 책에서 말씀하시고 계십니다. 어떻게 생각하면 오래된 것이고 또 다르게 보면 얼마 안된 분야라고도 할 수 있겠지만, 제 인생만큼 같이 발전되어온 분야라고 하니 더욱 […]
금융수학 (40) 델타 헤지 옵션의 손익 (1) – 실현변동성을 이용한 델타 헤지 이번 시간에는 옵션의 델타 헤지를 이용한 변동성 거래에 대해 알아보기로 한다. 이전 시간에 언급한대로 옵션의 기초자산 (S)을 연속적으로 델타 헤지 (Hedge)하면 옵션을 복제할 수 있다. 그런데 델타를 계산할 때 옵션에 내재된 변동성 (Implied volatility)을 사용할 것인지, 역사적 변동성 (Historical volatility)을 사용할 것인지, 아니면 (알 수는 […]
금융 수학 (39) ATM Straddle의 특성 분석 이번 시간에는 변동성 거래 (Volatility Trading) 중 옵션을 이용한 ATM Straddle 전략의 특성에 대해 살펴보기로 한다. ATM Straddle 은 행사가격이 등가격 (At-the-money)으로 동일하고 (S = X), 만기가 동일한 콜옵션과 풋옵션을 동시에 매수한 전략으로 변동성을 매수한 형태의 전략이다 (C + P). ATM Straddle 의 특성은 아래 그림으로 간단히 살펴볼 수 있다. […]
금융 수학 (38) 변동성 거래의 종류 (Volatility Trading) 그동안 여러 편의 포스트틀 통해 내재변동성, VIX, GARCH 등 변동성의 특징에 대해 살펴보았다. 이번 시간부터는 변동성을 거래할 수 있는 수단에 대해 살펴보기로 한다. 현대 금융시장에서 변동성이 차지하는 비중은 대단히 크다. 대부분의 개별 금융 상품들은 상품의 가격 변화에 의해 손익이 결정되지만, 파생 상품이나 구조화된 상품들은 (기초자산의) 주가의 방향보다는 변동성에 의해 손익이 결정되는 […]
금융 수학 (37) 주가의 (수익률) 확률 분포 추정 요즘은 암 투병 중이신 어머니가 많이 편찮으셔서 간병을 위해 집에 있는 날이 잦아졌다. 그 바람에 시간이 많아져서 그동안 자주 정리하지 못했던 내용들을 하나씩 정리해 보기로 한다 (투자하시는 분들도 스트레스 받지 마시고 건강부터 챙기세요 ^^) 이번 시간에는 그동안 정리한 내재변동성과 SVI 추정식을 이용하여 기초자산의 확률분포를 추정하는 방법에 대해 […]
금융 수학 (36) 내재변동성 곡선 추정식 (SVI) 지난 시간에 이어 내재변동성 스마일 곡선의 추정식에 대해 알아보기로 한다. 내재변동성 곡선의 추정식으로는 1999년 메릴린치의 Jim Gatheral에 의해 고안된 Stochastic Volatility Inspired (SVI) 가 유명하다. Jim Gatheral은 현재 Baruch College의 교수로 변동성의 권위자로 알려져 있고, 현재도 SVI surface 모형을 꾸준히 연구하고 있다. 아래 식은 1999년에 고안된 단일 월물의 […]