블로그
시장미시구조론 (Market microstructure) – (1) 머 리 말 그동안 시장미시구조라는 제목으로 몇 편의 글을 써 왔다. 그러나 제대로 알지 못하는 상태에서 쓴 글이 많아, 잘못된 내용이 너무 많았던 것 같다. 시장미시구조에 대한 기본 개념도 없이 고급 전략을 다룬 논문들을 참조했기 때문에 제대로 된 전략을 만들어 내지도 못하고, 그나마 적용해 본 일부 결과들도 모두 엉망이었던 것 […]
호가창 분석 (10) 호가창과 지수 분포 시뮬레이션 이번 시간에는 지수 분포의 시뮬레이션을 만들어 보기로 한다. 포아송 분포의 시뮬레이션은 사건의 발생 횟수를 만들어내는 반면에, 지수 분포는 사건 발생 사이의 소요 시간을 만들어낸다. 포아송 분포는 횟수에 대한 정형화된 수식 (Closed-form)을 만들기 어려우나, 지수 분포는 소요 시간에 대한 정형화된 수식을 만들 수 있으므로 시뮬레이션을 만들기가 더 용이하다. 지수 […]
호가창 분석 (9) 호가창과 지수분포 이전 시간에 살펴본 포아송 분포는 단위 시간당 발생하는 주문의 개수 (사건 발생 횟수)에 관심을 둔 분포이다. 반면에 한 개의 주문이 발생하는데 걸리는 시간에 관심을 두면 지수 분포 (Exponential Distribution)가 된다. 즉, 포아송 분포의 확률변수는 (확률분포의 x-축) 주문 발생 횟수가 되고, 지수 분포의 확률변수는 주문이 발생하는데 걸리는 시간이 된다. 따라서 포아송 […]
호가창 분석 (8) 지정가 주문의 체결확률 시뮬레이션 Rama Cont의 호가창 모델의 포스트에서 잠시 살펴본 “A stochastic model for order book dynamics” 논문에서는 호가창의 각 Parameter (지정가, 시장가, 취소 주문율)를 추정하고 Markov Process (Birth-Death Process)의 이론을 활용하여, 아래의 확률을 계산하였다 (역 라플라스 변환의 수치해석으로 계산함). 1. 다음 스냅샷에서 Mid-price가 올라갈 확률. 2. Mid-price가 상승하기 전에 지정가 […]
호가창 분석 (7) 호가창 포아송 분포의 시뮬레이션 전략개발 및 테스트를 위해서는 시뮬레이션 방법이 매우 효과적이다. 이번 시간에는 호가창에 대한 포아송 분포의 시뮬레이션 방법에 대해 알아본다. 포아송 분포를 시뮬레이션 하려면, 아래 식에서 확률 p 에 0 ~ 1 사이의 랜덤 값을 대입한 후, 확률변수 (Random Variable)인 x (단위 시간당 사건의 발생횟수) 를 만들어 내면 된다. 평균 […]
호가창 분석 (6) 호가창과 포아송 분포 주식시장의 호가창 (Limit Order Book)에서 일어나는 일련의 사건들은 (Quote Event, Order Flow 등) 통계학의 포아송 분포 (Poisson Distribution) 및 지수 분포 (Exponential Distribution)와 매우 밀접한 관계가 있다. 호가창의 사건들은 아주 짧은 시간에, 매우 복잡하게, 그리고 (거의) 연속적으로 발생하므로 통계적으로 분석할 필요가 있다. 포아송 분포는 단위 시간당 발생하는 사건의 횟수에 […]
HFT 전략 분석 (9) Market Factors의 추정 (주문의 유형별 분포) 이번 시간에는 Market Factors 중 지정가 주문의 유입률 분포에 대해 알아본다. 지정가 주문의 유입률이란 특정 호가창 (i)에 지정가 매수/매도/취소 주문이 얼마나 빈번하게 발생하고 있는지를 분포의 형태로 표현한 것이다. 일반적으로 이 분포는 지수분포 (Exponential distribution)의 형태를 띠고 있으며, 연구 결과, 아래와 같이 표현할 수 있는 것으로 […]
HFT 전략 분석 (8) Market Factors의 추정 (유동성 척도 – k) 이번 시간에는 지난 시간에 소개한 Market Factors 중 유동성에 대한 척도 (k)를 추정해 보기로 한다. 유동성 척도 (k)는 Stoikov의 최적 Bid-Ask Price를 계산할 때 필요하기도 하지만, 일반적으로 특정 시장에 유동성이 얼마나 풍부한지를 측정할 때 유용하다. Market Microstructure 분야의 연구 결과에 의하면 (거래량) 시장가 주문 […]
안녕하세요. 지난 시간에는 LDA (Latent Dirichlet Allocation) 모형에 대해 큰 개념을 살펴보았습니다. 이번 시간에는 LDA 모형에 대해 좀 더 세부적으로 살펴보기로 하겠습니다. 1. 텍스트 데이터 분석 [토픽 모델] – (1) 개요2. 텍스트 데이터 분석 [토픽 모델] – (2) TF-IDF와 TDM3. 텍스트 데이터 분석 [토픽 모델] – (3) 주제 별 Clustering 4. 텍스트 데이터 분석 [토픽 […]
안녕하세요. 이번 시간에는 텍스트 데이터를 수치 데이터로 변환하는 방법에 대해 살펴보겠습니다.텍스트 데이터를 통계적으로 처리하기 위해서는 정형화된 수치 데이터로 변환할 필요가 있는데요, TF-IDF 라는 측정치를 사용한 Term-Document Matrix (TDM)이라는 형태를 이용합니다. 이번 시간에는 TF-IDF 를 이용한 TDM을 활용한 예제로 구글이나 네이버 같은 곳에서 문서의 검색 순위를 결정하는 원리에 대해 살펴보기로 하겠습니다. 1. 텍스트 데이터 분석 [토픽 모델] […]