[Tensorflow] 4. 튜토리얼 예제로 한번 실행해보기2 (Neural Network)
Tensorflow 튜토리얼에 간단한? 예제가 하나더 있는데 NN을 이용하여 학습하는 예제입니다. 새로운 함수가 몇개 나오는데 정확히 뭘 해주는 함수인지가 애매해서 매우~ 난해합니다. Tensorflow 튜토리얼 문서 바로가기 test2.py import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data mnistData = input_data.read_data_sets(‘MNIST_data’, one_hot=True) sess = tf.InteractiveSession() x = tf.placeholder(tf.float32, shape=[None, 784])y_ = tf.placeholder(tf.float32, shape=[None, 10]) def weight_variable(shape):initial = tf.truncated_normal(shape, stddev=0.1)return tf.Variable(initial) def bias_variable(shape):initial = […]
Tensorflow에서 제공하는 기본 데이터셋인 MNIST로 가볍게 돌려볼 수 있는 튜토리얼을 제공하고 있습니다. 이것을 통해서 간단하게 Tensorflow로 ML을 돌려볼 수 있는데, 대략 이런 함수들이 있구나 이렇게 흘러가는구나 정도는 가볍게 알수 있는 쉬운 예제인 것 같습니다. 일단 모라도 작성해서 돌려보고 결과가 나오는 것을 봐야 아! 걸음마를 땠구나 하는 기분이 들기 때문에, 직접 한번 작성해보고 실행을 해보는 것이 좋은 […]
AWS 서버에 python과 Tensorflow가 설치가 되었는데 개발을 하고 테스트를 하기 위해서는 IDE가 로컬 Windows PC에 있으면 편하겠지요 Pycharm pro 버젼에서는 이러한 기능을 지원을 해주고 있어서 참으로 좋습니다. 더 좋은것은 로컬 windows pc에 Python과 Tensorflow등을 별도로 설치하지 않아도 된다는 것이지요. 그저 서버에 있는 것을 이용하면 되니까요. 그럼 Pycharm을 설치하고 원격 빌드 셋팅까지 해보겠습니다. 1. Pycharm 다운로드 및 설치 https://www.jetbrains.com/pycharm/download/ 에서 pro 버젼을 […]
1 step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것입니다. 2 step TD 에서의 업데이트 방식은 첫번째 보상과 두번째 보상 그리고 두번째 상태에서의 value function의 합으로 업데이트가 됩니다. TD(0) 가 n이 1인 1-step TD입니다. 앞에서 이야기한 업데이트 방식에 대한 […]
TD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘입니다. DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징입니다. every-visit MC에서는 실제 에피소드가 끝나고 받게되는 보상을 사용해서 value function을 업데이트 하였습니다. 하지만 TD에서는 실제 보상과 다음 step에 대한 미래추정가치를 사용해서 학습을 하게 됩니다. 이때 사용하는 보상과 value function의 합을 TD target이라고합니다. […]
Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. 그리고 GPI를 따르는 방식으로 최적화 정책을 찾아냈었습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 […]
3. Markov Decision Process 이전까지 살펴보았던 Markov reward process 에 의사결정에 대한 개념을 더 추가합니다. 이를 Markov decision process (MDP) 라고 합니다. 당연히 모든 state가 Markov 인 환경에서 이루어집니다. A 라고 하는 action이 가능한 집합을 표현하는 notation이 하나가 더 추가가 되었습니다. 이를 통해서 현재 상태 s 에서 a 라고 하는 action을 할 때 다음 상태 s’ […]
1. Markov Processes 이번에 다루게 될 MDP에 대해서 소개를 하면 RL, 강화학습에서 가장 중요한 핵심 이론이 됩니다. 이 강의에서는 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정합니다. (fully observable) 설명을 하기 쉬운 환경이지만 실제로 우리가 살고 있는 환경은 그렇치 않죠. 우리는 아무리 노력을 해도 세상의 모든 뉴스를 다 보고 알수는 없기 때문입니다. 어떠한 […]
Deepmind에 David silver 교수님의 강의를 기반으로 하여 강화학습에 대한 이론적인 내용들을 하나씩 살펴 보겠습니다. 강의 영상과 자료들은 아래의 링크에서 볼 수 있습니다. http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 1. About RL 강화학습(RL)은 1979년도에 처음 시작했다고 서튼 교수님의 책에서 말씀하시고 계십니다. 어떻게 생각하면 오래된 것이고 또 다르게 보면 얼마 안된 분야라고도 할 수 있겠지만, 제 인생만큼 같이 발전되어온 분야라고 하니 더욱 […]
금융수학 (40) 델타 헤지 옵션의 손익 (1) – 실현변동성을 이용한 델타 헤지 이번 시간에는 옵션의 델타 헤지를 이용한 변동성 거래에 대해 알아보기로 한다. 이전 시간에 언급한대로 옵션의 기초자산 (S)을 연속적으로 델타 헤지 (Hedge)하면 옵션을 복제할 수 있다. 그런데 델타를 계산할 때 옵션에 내재된 변동성 (Implied volatility)을 사용할 것인지, 역사적 변동성 (Historical volatility)을 사용할 것인지, 아니면 (알 수는 […]