::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Conference Review  

2017 KDD conference - 이한규

작성자 이한규 작성일 2017-08-21 오후 3:41:28
내용

주로 해외학외라 하면 중국과 일본으로만 갔었는데 이제서야 KDD라는 큰 학회에 가볼 수 있다는 기대감에 설렘이 컸다.개인적으로는 아시아에서만 돌아다니다가 처음으로 태평양을 넘어가는 것이라 더 설렜을 수도 있다. 이번 2017 KDD는 캐나다, 노바스코샤, Halifax에서 개최되었다. 윈도우 배경화면과 같이 맑은 하늘과 조금만 밖으로 나가면 대서양이 맞닿아 있는 아름다운 도시였다. 학회 참여 후기는 크게 2개로 첫번째는 학회간 가장 인상깊었던 내용, 두번째는 개인적인 소회를 적고자 한다.

 

1. Temporal analysis

 - 다른 프로젝트로 요즘 다루고있는 시그널데이터 분석 방법론에 대한 세션이었다. 지금도 내가 참여한 프로젝트에서 이와 비슷하게 시그널 데이터를 분석하고 있고 이를 어떻게 해결해야 하는가에 대해 고민을 했었기 때문에 크게 와 닿았던 세션이라 생각된다. 해당 세션에서 발표된 것중에 Matrix profile V : A generic Technique to Incorporate Domain Knowledge into Motif Discovery 발표가 상당히 인상깊었다.

Matrix profile(이하 MP)은 시그널데이터에서 motif를 찾아내는 것을 목표로 한다. motif란 간단히 시그널 데이터에서 subsequence라고 볼 수 있는데 이러한 motif를 찾아냄으로써 classification, density estimation, semantic segmentation, clustering 등의 접근이 가능하다는 것이 주된 아이디어 이다. 이미 IEEE International Conference on Data Mining (ICDM) 2016에서 처음으로 제안된 방법론으로써, Matrix Profile I, II, III를 거쳐 현재 VIII 까지 지속적으로 개선 되고 있다.(실제 ICDM 2016, 2017 에서 발표된 제목이다..) 

- 일반적으로 Time-base 상에서는 sequence를 분석하기 위해서는 subsequence 사이즈를 설정하고 이를 기준으로 원 데이터를 분할한 후, 이들 간에 distance를 기반으로 유사도를 계산한다. 이 과정에서 구해지는 matrix가 과도하게 크기 때문에 계산 효율성이 떨어지며, subsequence의 의미 파악을 위해 이를 시각화 하더라도 모든 subsequence를 시각화 할 경우 의미 해석이 불가능한 단점이 있어, 본 방법의 주된 아이디어는 motif를 indexing 함으로써 전체 sequence를 low dimentional projection하는 것을 그 목적으로 하고 있다. 따라서 MP란 간단히 말해서 subsequence의 유사도 기반의 indexing vector라고 할 수 있다.

- 글로 설명하기는 상당히 복잡한 감이 있기 때문에 직접(http://www.cs.ucr.edu/~eamonn/MatrixProfile.html) 참고하면 좋을 것 같다. 그러나 subsequence 사이즈를 직접 설정해야한다는 점에서는 parameter-free라고 하기에는 무리가 있지 않나 싶다. 또한 multi-dimentional time series에 대해서 관련 연구를 찾아본 결과 다차원의 sequence를 하나의 차원으로 변경하여 (이어 붙여서) 이를 가지고 MP를 적용하여 결과를 보여주고 있으나 multi-dimentional time series 하에서의 개선점을 찾아보면 좋을 것 같았다.

 

2. 개인적인 소회

 - 그동안 대학원에서 영어를 쓴다고 하면 단순히 논문을 무리없이 읽을 수 있는 정도? 쫌더 나아가서 원하는 말을 잘 쓸수 있는 정도면 되지 않을까 라는 생각을 했다. 개인적으로는 이런 생각이 얼마나 안일한 생각이었는지 온몸으로 확인할 수 있었다. 머릿속에는 궁금한 사항이 있었지만 이를 질문하는 것이 입속에만 맴도는 경험을 하고 난 후부터 영어를 (특히나 대학원생 또는 연구자라면) 적어도 의사소통이 가능할 정도의 언어 스킬은 반드시 필요한 것이라 생각된다.

- 또 하나는 "개방" 이다. 학회 중에 들었던 모든 발표에서 각 발표자들은 본인의 알고리즘 또는 방법론 개발후에 이를 github 또는 홈페이지를 통해 모두 오픈해두었다. 실제 논문을 통해 알고리즘을 구현하는 것은 많은 시간을 투자해야 하고, 때때론 구현한다고 하더라도 100% 완벽히 구현하는 것은 어려운 경우도 있다. 그러나 이처럼 오픈소스로 개방함으로써 다양한 사람들이 사용하고 좀더 개선된 방향으로 이끌려는 의지를 볼 수 있었다. 프로그래밍 실력을 떠나 개발한 방법론 및 알고리즘을 개방하는 것이 쉬운 결정은 아니라고 생각되지만, 하나의 좋은 문화라 생각된다.




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침