::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Conference Review  

2017 KDD conference - 김영훈

작성자 김영훈 작성일 2017-08-21 오후 6:48:36
내용

캐나다 Halifax에서 개최된 KDD 2017에 다녀왔다. KDD는 NIPS, ICML, ICDM과 함께 Machine Learning, Data Mining 분야 4대 학회 중 하나인 학회로서 이 분야 세계 최고 수준의 연구 결과를 들을 수 있는 학회이다. 산업공학회나 INFORMS와 같은 산업공학과 학회에서도 좋은 발표들을 많이 들을 수 있지만 내가 전공하고 있는 Data Mining 분야에 특화되있는 세계적인 학회에 참석하는 것은 처음이라 많은 기대를 하고 참석을 했다.

KDD는 학회명에서도 알 수 있듯이 Data Mining 또는 Data Science에 특화되어있는 학회였다. 요즘 트렌드에 따라 Deep Learning 관련 연구들이 많을 것이라 생각했지만, 이보다는 다양한 방법론들과 응용 사례들에 관련된 연구들이 많이 발표되었다. 특히 Time Series 데이터를 분석하는 방법이나 Graph를 Clustering하는 흥미로운 방법론들이 많이 있었는데 잘 정리하고 공부해볼 필요가 있을 것 같다.

Three Principles of Data Science: Predictability, Stability, and Computability

여러 인상적인 발표들이 있었지만 우선 소개하고 싶은 발표는 첫째날에 Keynote로 발표되었던 Three Principles of Data Science: Predictability, Stability, and Computability이다. 발표 초반에는 제목에서 볼 수 있는 Data Science를 하는 데 있어 중요한 세 가지 원칙들에 대해 소개했다. 물론 이 내용도 상당히 좋았지만 내가 좀 더 집중해서 봤던 내용은 중반과 후반부에 설명되었던 연구 사례 내용들이었다. 첫번째 내용은 사람의 뇌파 시그널을 이용해서 사람이 보고 있는 이미지를 재구축하는 방법에 관한 연구였다. 사람에게 여러 이미지를 보여주면서 뇌파를 측정한 이후에 뇌파를 X, 이미지를 Y로 하는 모델을 학습시켜 뇌파에 따라 이미지를 생성하는 방법을 다루고 있었다. 두번째 내용은 Neural Network를 사용해서 이미지가 들어왔을 때 어떠한 뇌파가 나오는 지 추정하는 방법론에 관한 것이었다. 데이터 구성을 보면 첫번째 방법과 X, Y만 바뀐 문제였다. 문제 해결에 사용된 방법론이 독창적인 것은 아니었지만 인간의 뇌를 Machine Learning 기법을 활용해서 분석하고 연구한다는 것이 흥미로웠다. 최근 미국에서는 인간의 뇌지도를 만드는 프로젝트가 한창이라고 한다. 이 지도가 완성되면 인간의 뇌를 모사한 회로나 소프트웨어가 개발될 텐데 소개한 것과 같은 연구들이 이 과정에서 중요한 역할을 하게 되지 않을까 생각된다.

Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

이 연구는 Multivariate Time Series Data를 Clustering하는 방법을 다루고 있다. 개인적으로 연구하고 있는 분야와도 연관이 많이 있어서 가장 흥미롭게 들었던 발표였다. 일반적으로 우리가 시계열 데이터를 군집화한다고 하면 각 시간별 관측치를 독립적인 관측치로 보고 기본적인 Clustering 방법론을 적용하는 것을 생각하게 된다. 하지만 대부분의 시계열 데이터가 시간에 따라 연속적으로 변하기 때문에 기본적인 방법을 사용할 경우 이러한 연속성을 반영할 수 없다. 이 문제를 해결하기 위해 저자는 Temporal Consistency라고 하는 Penalty를 도입해서 시간 연속성이 유지되도록 Formulation을 했다. 그리고 흥미로웠던 부분은 Data를 Representation하기 위해 Markov Random Field(MRF)를 사용했다는 점이다. MRF는 Partial Correlation을 나타내는 matrix로 만약 두 변수 간의 MRF 값이 0이 아니라면 두 변수는 직접적인 상관관계를 가지고 있는 변수가 된다. 이 MRF를 Time window에 따라 만들고 각 Cluster를 대표하는 MRF를 Sparse하게 추정함으로서 변수간 상관관계의 변화에 따라서 Clustering을 한다. 이를 이용하면 우리는 시간에 따른 연속적인 상관관계 변화를 기반으로 군집화를 진행할 수 있다. 이 문제를 해결하기 위해서 Dynamic Programming과 Alternating Directional Multiplier Method(ADMM)을 사용했다. 이 연구는 문제 정의부터 해결 방법까지 모두 너무 흥미롭고 완벽했다고 생각한다. 또한 발표도 굉장히 훌륭했는데 이 어려운 방법론을 굉장히 쉽게 잘 설명했다. 여러모로 배울 점이 많은 발표였고, 자극이 많이 되었다.

Local Higher-Order Graph Clustering

일반적으로 Clustering 이라고 하면 전체 데이터를 여러 개의 군집으로 나누는 작업을 의미한다. 그런데 우리가 일부 관측치와 관계가 큰 소수 군집을 찾아내고 싶을 때는 전체 데이터를 모두 군집화하는 것은 비효율적이다. 이런 경우에 주어진 Seed를 기준으로 유사한 일부 데이터 군집을 찾는 것을 Local Graph Clustering이라고 한다. 그런데 기존의 방법론들은 Higher-order structure라고 하는 Graph의 구조 정보를 반영하지 못한다. 노드들 간의 특정한 연결 관계를 반영해서 Clustering하지 못하는 것이다. 이 경우에는 노드의 에지 개수와 같은 단순한 제약 조건밖에 반영하지 못하기 때문에 실제 응용에서는 제약이 생기게 된다. 이 문제를 해결하기 위해서 저자는 이 Higher-order structure를 motif로 정의하고 이 motif를 일정 수준 포함하면서 지역적인 Clustering을 하는 방법을 제안했다. 이러한 방법은 추천 시스템에 활용될 수 있다. 만약 Social Network 상에서 이 방법론을 적용해 본다면 나를 Seed로 하고 특정한 친구 관계 motif를 입력해주면 여기에 맞게 친구를 추천하는 서비스를 만들 수 있는 것이다.


이번 학회에서는 발표 내용 뿐만 아니라 발표자들의 발표 실력에서도 많은 자극을 받았던 것 같다. 결코 쉽지 않은 내용의 발표였지만 굉장히 쉽고 유창하게 발표하는 것을 보고서 배울 점이 많다고 생각했다. 발표를 잘 하는 사람들의 특징을 봤을 때 자신의 연구 의의와 중요성 독창성 등을 많이 강조하고 방법론이나 이론은 핵심적인 부분들만 언급한다. 그리고 결과를 설명할 때도 중요한 결과 위주로 간결하게 강조하는 특징이 있는 것 같다. 앞으로 발표를 준비할 때 이번에 느꼈던 것들을 잘 반영해 봐야 겠다.

그리고 이번에는 발표를 듣기만 했지만 다음번에 기회가 된다면 발표를 한 번 해보고 싶다. 논문 Acceptance rate이 8%로 굉장히 어렵겠지만 좋은 연구를 해서 도전해보고 싶다.

 

 

 

 

 

 

 

 

 

 

 

 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침