본문 바로가기

자연어 처리 정확성을 고도화한 연구

‘자연어’ 연구는 ‘인간의 일반 언어’에서부터 파생되는 만큼 연구 주제도 매우 다양하다. 정우환 교수는 자연어 처리, 그중에서도 정보추출(Information extraction)에 초점을 맞춰 자연어에서 의미 있는 정보를 추출, 데이터베이스화하는 것에 주력한다.

지난 2023년 12월 싱가포르에서 열린 ‘EMNLP 2023’은 언어 데이터·자연어 처리 분야 세계 최고 수준의 학회다. EMNLP 2023에 참석한 정우환 교수와 데이터 사이언스 연구실 연구팀은 학회에서 두 편의 논문을 발표했다. 그중 하나는 자연어 처리 분야 중 데이터 분류 체계를 활용한 개체명 인식에 관한 논문으로 분류 체계가 다른 데이터를 학습하고 활용해 세부적으로 개체명을 인식, 정확도를 높인 것이 핵심이다. 또 다른 연구 내용은 경제 분야특화 언어 모델로 개발된 ‘FiLM’이다. 경제·금융 분야에 특화해 언어모델의 정확도를 높이는 기술을 발표하여 특화된 자연어 분야의 약점을 적극 보완했다.

“언어 모델은 일반적으로 여러 분야를 포괄하는 도메인을 기반으로 다양하게 활용될 수 있도록 학습되는데요. 각 분야에 맞게 조금 더 트레이닝 시키는 경우도 있습니다. 경제 분야는 숫자, 금액이 많이 등장하고 금융 분야 전문 용어가 따로 있어서 이를 잘 이해할 수 있도록 개발했습니다.”

정우환 교수는 일반 언어모델에 비해 특정 분야 언어모델의 정확도가 상대적으로 낮았던 점을 보완하고, 학습에 필요한 에너지 사용량을 83%가량 감축하는데 성공했다. 세분화된 언어모델을 통해 전문적인 서비스 개발을 가능하게 하고 그 효율성을 확보한 것. 정우환 교수는 이렇게 개발된 ‘FiLM’을 실험실 창업에 도입했고, 수많은 개인 투자자를 위한 공시 정보 애플리케이션을 출시했다.

정우환 교수가 창업한 램플리는 AI를 이용한 금융 분야 특화 언어모델로 시장을 공략하고 있다.
정 교수는 실험실 창업과 학생들의 연구 퀄리티 향상을 양립하기 위한 노력을 기울이고 있다.

빠르고 정확한 정보로 투자 타이밍을 알린다

정우환 교수가 금융 분야에 특화된 인공지능 모델을 구상하게 된 것은 대학원 시절 즐겨들었던 경제 팟캐스트에서 비롯됐다. 방송에 출연한 유명 자산 운용사 대표는 공시분석의 중요성을 이야기하며 신입사원들에게 아침마다 전날 공시 중 중요한 내용을 추출해 회사의 펀드매니저들에게 공유하게 한다는 일화를 소개했다. 하루에도 수백 건의 공시가 쏟아져 나오는 터라 모든 정보를 확인하기엔 현실적으로 어려움이 있고, 때문에 신입사원들을 통해 한차례 필터링된 공시 정보를 확인한다는 것. 이러한 현장 이야기는 정 교수에게 큰 아이디어를 제공했다.

“방송을 듣고 나니, AI를 활용하면 펀드매니저들이 받아 보는 주요 공시 내용을 일반인들도 쉽게 받아 볼 수 있을 것 같았습니다. 무엇보다도 다음 날 받아 보는 게 아니라 몇 초 내로 받아 보는 것도 가능하겠다는 생각이 들었죠. 언젠가 꼭 그런 AI모델을 만들어보고 싶다고 생각해 왔습니다.”

박사 졸업 이후 교수로서의 생활에 적응하는 것이 더 급했던지라 곧장 창업으로 이어지지 못했다는 정 교수는 2022년 산학협력단의 실험실 창업 지원 소식을 접한 이후 더 이상 아이디어를 지체하지 않기로 마음먹었다고 한다. 마침 연구실에 창업을 준비하는 대학원생이 있어 같이 손을 맞잡고 창업의 항로에 올랐다.

정우환 교수가 설립한 회사명은 ‘램플리’, 서비스의 이름은 ‘파이렌(Firen)’이다. 사이렌을 연상시키는 서비스 이름처럼 개인이 설정한 정보에 따른 공시 정보를 알림으로 빠르게 확인할 수 있다. 일반적인 경우, 공시 발표에 따라 주가가 급변하는 시장 특성을 미뤄볼 때 그만큼 정보에 대한 발 빠른 대응과 선택이 투자 성공에 주요하게 작용함을 알 수 있다. 문제는 일반 투자자들이 공시 정보를 활용하는 것이 쉽지 않다는 것인데, 일단 정보가 너무 방대하고 내용이 복잡한 데다 일반 개인 투자자들이 공시 내용 속에서 자신에게 필요한 정보를 캐치해 이해하기는 더더욱 어렵다. 정우환 교수가 개발한 파이렌은 인공지능을 활용해 주가 변동성에 영향을 미치는 공시 정보를 AI를 기반으로 필터링하고 가장 좋은 매수 타이밍을 알려준다. 난해한 공시 정보를 습득하기 좋게끔 요약하고 분석하는 것도 파이렌의 기술력이다. 금융 분야 언어모델 중에서도 가장 높은 정확도를 확보하게 한 연구가 배경에 있다.

누구나 쓰기 쉬운

블룸버그 터미널 되는 것이

파이렌 서비스의 목표

모두를 위한 블룸버그 터미널

정우환 교수는 사업을 위한 장기 계획을 수립했는데, 그 끝에는 ‘모두를 위한 블룸버그 터미널’이라는 목표가 기다리고 있다. 이는 미국 디지털 금융 기업 블룸버그(Bloomberg)가 제공하는 온라인 증권 거래 소프트웨어로, 연간 이용료만 2만 달러에다 사용방법에 대한 별도 교육은 필수다. 대기업 또는 기관 타깃 서비스인 만큼 투자자들의 접근도 극히 제한된다. 그렇지만 모든 시장의 실시간 데이터, 심층 리서치를 비롯해 세계 수준의 체결 기능을 모두 한곳에서 가능하게 하는 완전한 통합 솔루션이라는 점에서 엄청난 공신력을 자랑한다. 정 교수는 블룸버그 터미널의 높은 장벽을 낮추면서도 그에 못지않은 공신력을 갖춘 플랫폼으로 파이렌이 보편화되길 꿈꾼다.

“쉽게 말해서 ‘쓰기 쉬운 블룸버그’가 되는 것이 파이렌 서비스의 궁극적인 목표인데요. 그렇게 되면 더 많은 사람에게 서비스를 제공할 뿐 아니라 서비스 단가도 낮출 수 있을 거라고 생각합니다. 복잡한 검색도 말로 명령하면 AI가 이용자가 원하는 정보를 만들어 제공할 수 있게 되는 것이죠. 이런 서비스를 구현하고 싶고, 충분히 그런 기반이 마련됐다고 생각합니다.”

이러한 꿈을 실현하기 위해 연구는 계속되고 있다. 다만 여타 실험실 창업의 경우 대부분 연구개발한 기술을 사업에 바로 적용하는 경우가 많은데, 정우환 교수는 빠른 적용이 다소 어렵다. 수준 높은 학회에 논문을 발표하려면 영어를 기반으로 한 언어모델을 개발해야 하는데, 파이렌은 한국어 기반 서비스이기 때문. 그는 사업 적용에 다소 시간이 걸리더라도 연구실의 학술성과를 위한 최선의 길을 선택하면서 스타트업 대표, 교수로서의 역할을 양립하고 있다. 실험실 창업과 연구실은 철저히 분리하고, 대학원생 개개인의 연구를 존중하는 것이 정 교수의 방침이다. 인공지능과 자연어 처리는 현재 가장 활발한 연구와 혁신이 일어나고 있는 분야다. 때문에 정우환 교수는 대학원생들의 연구 방향을 잘 잡아 주는 동료이자 파트너가 되고 싶다.

“챗GPT 같은 LLM의 등장이 인공지능, 자연어 처리 분야에 큰 변화를 가져왔습니다. 때문에 그 다음을 예측하기가 더욱 어려워졌어요. 저도 학생들과 세미나를 하면서 방향을 알 수 없지만 대신, 사람이 하던 것을 인공지능을 통해 대체해 보는 것으로 패러다임을 바꾸어 지도하고 있습니다. 그 방향을 잘 잡을 수 있도록 하는 대학원생들의 길잡이 동료가 되고 싶습니다.”

파이렌은 이용자가 원하는 공시 정보를 빠르게 분석해 가장 좋은 매수 타이밍을 추천한다.