News & Events
* 이 글은 towardsdatascience에 작성된 Vered Zimmerman의 글을 번역하였습니다.
금융 서비스 업계는 NLP(Natural Language Processing)라고도 알려진 텍스트 크런치에 빠져들고 있다. 이는 투자 기업들이 분석, 뉴스, 계약, 규정 준수 보고서 등 텍스트 데이터에 빠져 있기 때문에 필연적으로 초래되었다.
그리고 금융 부문은 사내 기술을 좋아한다. 특히 투자은행들은 실리콘밸리를 떠난 공학 인재들을 열심히 끌어들이고 있다. 이는 2008년 금융 위기 이전부터 진행되었지만, 이후의 규제는 더 나은 데이터 솔루션에 대한 수요를 창출하여 인재 영입의 속도를 높였다.
고려해야 할 인센티브도 있다. 시장 우위를 차지하려는 열망에 의해 움직이는 산업이기에 특히 데이터를 다르게 처리함으로써 더 많은 것을 알 수 있다는 전망에 귀를 기울이는 경향이 있다. 필자는 한동안 금융 서비스와 자연어 처리의 교차점에 있었다. 작년 말, 이 질문에 답하기 위해 최대한 많은 정보를 수집하기로 결정했다.
은행과 자산가들은 자연어 처리를 어떻게 사용하고 있는가?
필자는 (영국 정부가 발행하는)백서로 발견한 사례 연구를 모으기로 결심했다.—
“금융 업계가 자연어 처리를 사용하는 방법 – 은행 및 투자 관리 분야 8가지 사례 연구”
주요 의도는 금융 업계 관계자들에게 NLP가 제공하는 가능성의 세계에 대해 교육하는 것이었다. (필자는 FinText의 설립자이다.)
이를 위해 보고서는 모든 사람이 이해할 수 있도록 주요 NLP 및 머신 러닝 개념(주제 모델링, 개체명 인식, 피쳐 셀렉션 등)을 명확히 규정했다.
하지만, 이 프로젝트를 편집하면서 필자는 어떤 발견에 충격을 받았다. 이미 NLP에 익숙한 사람들과 공유하는 것이 좋을 것 같았지만, 금융 서비스 영역에서는 그렇지 않았다. 오늘 필자가 여러분과 나누고자 하는 것은 바로 그 발견이다.
관련성은 금융 부문의 세부 사항에서 벗어나 텍스트 분석을 활용하고자 하는 다른 비기술 분야로 확대될 수 있다고 생각한다.
1. 금융 NLP, 익숙한 것부터 시작하기
자동 언어 처리는 전이 학습과 트랜스포머의 도입을 통해 2017년 말부터 비약적인 발전을 이루었다. 또한, 매주 NLP는 조금씩 개선되고 있다. 모델 외에도 툴, 코퍼레이션, 학습 리소스 등이 있다. 곧, 이러한 복합적인 이득이 더해지기 시작할 것이다.
하지만 금융 서비스 내의 실제 텍스트 처리 응용에 사용되는 기술을 보면, 기술의 출혈이 아니다. 대체로, 이 분야에서 작동되고 있는 NLP 개념은 친숙하고 확립되어 있다: 임베딩, 용어 가중치 체계, 클러스터링, 스크래치부터 분류기 훈련
일반적으로 투자 기업들이 직면하고 있는 텍스트 문제는 규모와 효율성이다. 대부분의 경우, 5년 전과 비슷한 결과를 달성하는 동시에 훨씬 더 많은 데이터를 처리하거나 더 적은 인력으로 처리하는 것을 목표로 한다. 따라서, 자동화는 그 자체로 재무적 레버리지로 작동한다.
물론 필자가 공개적으로 이용 가능한 정보를 수집했기 때문에, 아직 공개되지 않은 많은 현재 프로젝트들이 대규모 모델을 사용하고 있을 가능성이 있다. 대체로 그럴 것 같지 않은 것 같다.
한 가지 이유는 사내 금융 NLP 애플리케이션이 보상을 염두에 두고 개발되고 있기 때문이다. 기술은 그 자체를 위해서도, 추상적인 연구를 위해서도 사용되지 않고 있다. 실험은 확실히 이루어지고 있지만, 매우 구체적인 비즈니스 문제를 해결하기 위해 행해지고 있다. 이런 맥락에서 먼저 확립된 아이디어를 시도하는 것이 타당하다.
더 평범한 기술을 배치하는 두 번째 이유는 많은 과일들이 엄청나게 낮게 매달려 있기 때문이다. 많은 지저분한 데이터 세트를 처리하는 모든 도메인과 마찬가지로 작업의 주요 부분은 데이터를 함께 가져와 정리하는 것이다. 하지만 데이터로부터 얻을 수 있는 가치에 대해서는 실질적인 이득을 보기 전까지 마법은 필요없다.
2. 내부 프로세스 최적화를 위한 솔루션
NLP는 블룸버그나 Refinitiv (톰슨 로이터의 시장 데이터 서비스)와 같은 데이터 공급자에게 새로운 것은 아니지만, 필자는 주로 내부 개발 연구에 집중했다. 첫째, 금융서비스와 NLP의 교차점에 있는 많은 제공자들은 내심 들여다보는 경향이 있다. 그들은 ‘어떻게'(이거봐! 우리는 이 멋진 기술을 사용하고 있어!)에 초점을 맞춘다. 그리고 ‘What’ (이것이 우리가 마법처럼 해결하는 문제이다.)에 관한 것도 아니다.
이러한 사고방식은 아마도 기술에 배경지식을 가진 많은 사람들에게 익숙할 것이다. 사람들은 새로운 기술을 좋아하기 때문에 해킹을 한다. 따라서 모든 사람들이 그냥 앉아서 듣기만 한다면 그것을 좋아하게 되어 있다고 가정한다.
그러나 금융 서비스에서는 최고 경영자들이 기술에 관심을 갖는 경우가 매우 드물다. 예를 들어 골드만삭스나 르네상스 캐피탈에서도 (기술에 대해 매우 전략적인 두 회사) 최고 경영자들은 멋진 새로운 위젯보다는 다음 승리에 더 신경을 쓸 것이다.
내부 개발에 주력하기로 한 또 다른 이유는 기업들이 ML 기술을 도입하려고 할 때 먼저 사내에서 실험하기를 좋아한다는 영국 은행의 증거였다.
Taken from: ‘Machine Learning in UK Financial Services’, October 2019
사내 재무 텍스트 분석에 있어서는 문제 해결이 비즈니스 프로세스를 이해하는 것이었음이 분명해졌다.
이 기술은 기존 워크플로우를 보완하는 솔루션의 능력에 비해 작은 역할을 수행한다.
금융회사 내 모멘텀 팩터는 거대하다: 실제로 프로세스를 바꾸는 것은 더디게 진행된다. 저항력이 적은 길은 일이 정상적으로 이루어지는 방식에서 고통스러운 점을 부드럽게 제거하는 것이다. 따라서, 여러분의 책임에 가장 중요한 것은 텍스트 데이터를 다룰 때 사람들이 자신의 일을 어떻게 하는가를 단계별로 이해하는 것이다.
예를 들어, 다음은 광범위한 프로세스 내의 특정 문제를 대상으로 하는 은행의 내부 NLP 애플리케이션의 예이다. 금융 서비스 회사는 다양한 소스 시스템에서 회사별 데이터를 받는다. 그러나 서로 다른 데이터 소스 간에 일관되게 공유되는 단일 회사 식별자는 존재하지 않는다. 따라서 회사 이름은 데이터 세트마다 다를 수 있기 때문에 내부적으로 사용되는 이름과 서로 다른 데이터 세트를 일치시키는 것은 어려울 수 있다.
즉시 떠오르는 해결책은 규칙 기반 데이터베이스 형태를 유지하는 것이다. 그러나 한 은행은 각 회사 이름을 “문서”로 간주하고 유사한 문서를 일치시킴으로써 이 문제를 해결했고 임베딩과 TF-IDF를 사용하여 해결했다.
3. 금융 NLP의 돌파구는 아직 오지 않았다
한편으로는 이러한 내부 기반 NLP 애플리케이션은 연구, 백오피스, 고객 서비스, 마케팅에 이르기까지 거의 모든 부서에 걸친 비즈니스 영역에서 싹트고 있었다. 사실 필자는 보고서에 실렸던 것보다 더 많은 사례 연구를 접하게 되었다. 예를 들어, BNY-Mellon은 이메일을 관련 부서로 보내거나, 고객 이탈을 예측하는 모델에 NLP를 통합하려는 스코틀랜드 왕립 은행의 노력을 인용하지 않았다.
또한 대형 은행들이 육성하고 있는 소규모 스타트업(예: JP Morgan의 Limeglass, ING의 Eigen Technologies)에 지분을 갖고 있는 몇 가지 사례를 접했다. 이는 프로세스의 중요성을 다시 한 번 강조했다. 즉, 실제 상황에서 솔루션이 완벽하게 구현되고 있다는 것이다.
하지만 필자가 수집하고 있던 정보는 믿을 수 없을 정도로 흩어져 있었다. 뉴스, 알려지지 않은 보고서, 회의 프레젠테이션, 내부 기술팀이 작성한 블로그 게시물 등이 있었다. NLP를 위한 업계 내부 전문가도, 전문 매체도, 회의도 없는 것 같았다. 종합해보면, 필자는 내부 개선의 거대한 흐름을 목격했지만, 업계간 논의는 없었다.
따라서, 금융 서비스에서의 AI나 머신러닝은 이미 뜨거운 주제이지만, 금융 서비스에서의 NLP는 아직 테마로 떠오르지 않았다. 만약 필자가 추측 한다면, 트렌드는 아마 다음 몇 년 안에 바뀔 것이다. 기술은 몇 년 동안 금융 서비스를 상품화해 왔고, 경쟁 기업들은 유사한 흐름을 따르는 경향이 있다. 한 기업이 큰 이익을 창출하는 개선책을 만들면 경쟁사들은 제품군을 따르는 경향이 있다. 당장은 아니더라도 결국은 운전대를 잡게된다.
COVID-19로 인한 경제적 여파는 단지 기업들이 그들의 자원을 최대한 활용할 수 있었던 추가적인 추진에 불과하다. 향후 몇 년 동안 은행과 자산 운용사로부터 더 많은 활용 사례를 기대하는 것은 꽤 안전한 베팅이다.
4. NLP가 거래 전략에 간접적으로 미치는 영향
뉴스를 기반으로 주식 예측을 구축하는 것은 이제 일반적인 머신 러닝 연습이다. 그러나 실제로 대부분의 투자 회사는 거래 전략을 고안하기 위해 텍스트 데이터 흐름을 사용하지 않는다. 부분적으로는 투자 매각 방식 때문이다. 슈퍼마켓에서 마구잡이로 뒤섞인 상품을 제공하는 것이 아니라, 구역별로 나누어 상품을 제공하는 것과 마찬가지로, 투자 상품도 특정 범주, 특히 (연금 펀드 같은) 대규모 전문 투자자들에게 판매된다.
테마 제품은 소매 고객(당신이나 필자 같은 일반인을 위한 언어)에게 어필하는 경향이 있지만, 기후 변화 ETF, 기술 추적자, 마리화나 집중 제품 등 다른 틈새 스토리텔링 제품과 경쟁한다. 사실 뉴스, 블로그, 트윗에서 가장 호의적으로 언급된 기업을 추적하기 위해 고안된 BUZZ Sentiment ETF는 투자자들의 관심 부족으로 인해 결국 접게 되었다.
전반적으로 금융회사들은 대부분 대체 데이터를 사용하여 숨겨진 신호를 탐지하고 있다. 아래 예시에서 업계 최고의 출판사 중 하나가 우리의 보고서를 어떻게 다루었는지에 대한 내용을 살펴보자.
Ferret Out Dishonesty
그런 다음 이러한 신호는 더 넓은 투자 프로세스에 반영된다. 한 걸음 뒤로 물러서 사례 연구를 종합해 보면 은행과 투자 관리자가 실제로 다음과 같은 질문을 하고 있다는 것을 알 수 있다.
현재의 과포화 데이터 환경에서 잘 알고 있다는 것은 무엇을 의미할까?
방대한 양의 텍스트 데이터를 고려할 때, 이 질문은 더욱 압박감을 줄 것이다.
맺음말
다음 네 가지 결과를 함께 살펴보자.
1. 기존 기술은 이미 많은 잠재력을 제공하고 있다.
2. 내부 병목 현상을 해결하는 것이 우선이다.
3. 많은 사람들이 아직 NLP의 이익를 파악하지 못하고 있다. 지식은 산재해 있다.
4. 투자 측면에서 NLP의 활용이 일부 지수를 능가하는 것은 아니다.
첫 번째와 세 번째 발견은 함께 의미가 있다. 최신 대형 모델을 가지고 노는 것은 멋진 일이지만, 실리콘 밸리가 어제 뉴스에 대해 어떻게 생각할지 비웃는 것은 피하자. 여전히 데이터 정리 및 통합에 많은 문제가 있지만, 이러한 노력을 수행하기 위해서는 먼저 보상이 있다는 것을 알아야 한다. 따라서, 업계가 관심을 갖는 용어와 개념을 사용하면서 달성 가능한 것을 소통하는 것은 많은 가치가 있다.
두 번째 발견과 같이 실질적으로 유용한 것을 만드는 것에 대해 생각하는 것은 도메인 전문 지식이 없으면 매우 어렵다. 만약 여러분이 은행이나 자산 관리자의 일원이 된 적이 없다면 여러분은 일상적인 어떤 모습인지 어떻게 알 수 있을까? 너무 어렵기 때문에 이 지식을 추구하는 사람은 극소수이다. NLP 기술을 금융 분야에 적용하고자 한다면, 해당 업계 종사자들에게 몇 가지 일상적인 질문을 던져볼 가치가 있다고 생각한다.
그들의 하루는 어떻게 생겼나? 누구를 쫓아야 하나? 그들은 무엇을 반복하나? 어떤 종류의 스프레드시트를 보는가?
여기서 네 번째 결과가 나온다. 은행이나 자산운용사에 가치를 더하고 싶다면, 실제 투자자를 대체하려고 하지 말자. 내부적으로 이들은 조직에서 가장 영향력 있는 사람들 중 일부인 경향이 있다. NLP가 투자자들에게 직접적인 도움이 된 사례 연구는 단순히 얻을 수 없는 추가적인 가공 지식을 제공하는 것이었다.
그것이 진짜 가장자리가 있는 곳이다.
Sources:
1. “How Finance Uses Natural Language Processing — 8 Case Studies in Banking and Investment Management”, May 2020, FinText
오늘 배운 NLP는 인사이트캠퍼스에 개설된
무료 강의를 통해 더 학습할 수 있습니다.
파이썬을 활용한 자연어처리 이론 강의로 NLP에 입문하고 싶은 분들께 추천드립니다.
아래 인사이트 캠퍼스에서 확인해보세요!
번역 – 핀인사이트 인턴연구원 강지윤(shety0427@gmail.com)
원문 보러가기>
https://towardsdatascience.com/how-the-large-investment-firms-use-nlp-822c7c79af96