::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Graph-based Semisupervised Learning Methods (발표자: 유재홍)

작성자 관리자 작성일 2016-12-31 오후 6:23:19
내용

발표자 Summary


유재홍

금일 세미나에서는 Graph-based Semisupervised Learning 기법들을 소개하였다. Semisupervised Learning이란 레이블이 부여된 데이터의 수가 상당히 적고, 레이블이 없는 데이터가 많은 경우에 보다 우수한 학습을 하기 위한 방법론이다. Semisupervised Learning은 학습목적에 따라 Transductive Learning과 Inductive Learning으로 구분할 수 있는데, Transductive Learning은 학습 데이터 중 레이블이 없는 데이터들에 대해 최대한 정확한 레이블이 부여되도록 학습을 수행하는 것이 목적이라면, Inductive Learning은 주어진 데이터를 최대한 잘 활용하여 레이블들을 분류하는 분류경계선이나 예측모델을 구축하는 학습을 수행한다. Semisupervised Learning은 학습방식에 따라서 여러 범주로 구분할 수 있는데, 오늘 세미나에서는 이 방법들 중 Local Graph Structure을 활용하는 기법들에 대해 소개하였다. Local Graph Structure을 이용하는 이유는 Semisupervised Learning에서의 중요한 가정 중 하나인 Smoothness Assumption (인접한 이웃일 수록 동일한 레이블을 가질 확률이 높다는 가정)에 의거한 것인데, 가장 초기의 방법으로 Label Propagation이라는 기법이 개발되었다. 이 기법은 레이블이 부여된 데이터들의 레이블을 이 데이터들과 인접한 레이블이 부여되지 않은 데이터들에 대해서 전파하는 방식으로 학습을 수행한다. 이 기법은 Transition Matirx를 활용하여 레이블을 전파하는데, 이는 Markov Chain이 작동하는 방식과 유사하다고 할 수 있다. 또한, Smoothness​ Assumption에 대해서 수리모델을 구축하여 레이블이 부여되지 않은 데이터들의 레이블을 추정하는 방식도 개발되었는데, 이를 Gaussian Field Harmonic Function (GFHF)라고 한다. 이 기법은 Weight Matrix로부터 Laplacian Matrix를 도출하고 이를 바탕으로 학습을 수행한다. Label Propagation과 GFHF는 레이블이 부여된 데이터의 레이블을 고정하여 학습을 수행하는데, 이는 레이블을 지나치게 신뢰한다는 한계점이 존재한다. 즉, 실제 문제에서는 엔지니어나 설비의 오류로 인해서 레이블이 잘못 부여된 경우가 존재할 수 있는데, 이러한 가능성을 무시하고 학습을 수행하기 때문에, 학습이 잘못 이루어질 수 있다는 한계점을 가지고 있는 것이다. 이를 극복하기 위해서 Local and Global Consistency (LGC)라는 기법이 개발되었다. 이 기법은 Smoothness​ Assumption을 표현하는 Smoothness Function과 레이블이 잘못 부여된 경우를 교정할 수 있도록 하기 위한 Regularization Term을 모두 활용하여 학습을 수행한다. 이 기법의 가장 큰 특징은 Smoothness​ Assumption과 더불어 Cluster Assumption (Cluster나 Submanifold와 같이 동일한 구조에 포함된 데이터는 동일한 레이블을 가질 확률이 높다는 가정)을 도입하고, 이 Cluster Assumption에 위배되는 레이블들을 레이블이 잘못부여된 경우라고 가정하여 이를 교정할 수 있도록 Regularization Term을 도입한 것이다. 하지만, 이러한 LGC 역시 노이즈에 취약하다는 한계점을 가지고 있다. 이를 해결하기 위해서 본 발표자는 Density-based ISOMAP Kernel을 활용하였다. 본 발표자는 모든 관측치들 간의 Density-based Geodesic Distance를 계산하고, 이를 바탕으로 MDS와 Constant Shifting이라는 기법을 활용하여 Mercer's Theorem을 만족하는 Kernel function으로 변환을 시도하였다. 이 Kernel Function을 Wieght로 간주하여 Graph-based Semisupervised Learning 알고리즘을 적용하였는데, 기존 기법들에 비해서 우수한 성능을 보임을 확인하였고, 특히, 레이블이 부여된 데이터가 적은 경우일 수록 우수한 성능을 보인다는 것을 확인하였다. 향후계획으로는 보다 많은 실제 데이터에 대해 적용해보고 제안하는 Kernel function이 어떠한 특징을 보이는지를 보다 면밀하게 파악해볼 것이다. 세미나발표에서 매우 유익한 코멘트를 준 연구원들에게 깊은 감사를 표한다. 

 

 

청취자 Summary


곽민구

이번 세미나는 그래프를 기반으로한 semi-supervised learning 방법론에 대해서 다루고, 기존 방법론이 가지고 있는 문제점을 해결하기 위한 방법을 제시하는 순서로 진행되었다. 데이터 자체는 많은데 label을 가지고 있는 데이터가 적은 경우, unlabled data를 활용하기 위해 제시된 방법이 semi-supervised learning인데, 여러 접근방법 중 graph-based approach는 데이터의 지역적인 패턴을 반영하여 현재 보유하고 있는 데이터의 label을 옆의 이웃으로 확률적, 순차적으로 전파하는 방법이다. Harmonic Function은 각 데이터 쌍의 edge, 즉 가중치가 클수록 데이터 레이블을 동일하게 할당하기 위한 최적화식을 풀게 구성되어 있다. 하지만 기존 label이 잘못되어 있는 경우 성능이 확실하게 저하된다는 단점이 존재한다. 이를 해결하기 위해 지난 여름에 소개했던 kernel을 사용하여 cluster과 manifold structure를 둘 다 반영하고 label을 교정할 수 있는 알고리즘을 소개했다. 실험 결과 또한 Harmonic Function에 비해 좋은 성능을 보여준 것을 알 수 있었다. 마지막으로, Harmonic Function에서 label을 교정할 수 있는 constraint를 준 LGC의 성능과, 제안한 kernel을 사용한 경우를 비교한 실험이 있었으면 더 의미가 있었을 것이라고 생각한다.

 

김영훈

오늘 세미나에서는 Graph-based semisupervised learning 에 대해서 배울 수 있었다. 데이터에 레이블이 있는 데이터와 없는 데이터가 섞여 있을 경우 레이블이 없는 데이터에 정확한 레이블을 붙여주는 작업은 중요하다. 이 때 레이블이 있는 데이터로 모델을 만들고 이 모델을 이용해서 레이블을 추정할 수 있지만 이는 레이블이 붙은 데이터가 거의 없는 경우에는 적용하기 힘든 단점이 있다. 그래서 레이블이 없는 데이터까지 포함해서 Manifold 구조를 추정한 다음 이 정보를 이용해서 좀 더 정확하게 레이블을 추정하는 방법이 오늘 소개된 Graph-based semisupervised learning 이다. 그래프상에서의 관측치 간 유사도를 이용하는 LGC 방법이 흥미로웠다. LGC 이전에는 전체적인 Cluster 구조에 대한 가정이 들어가지 않아서 레이블이 잘못 붙은 관측치들이 있으면 최종 결과에 오류가 크게 생겼는데, 기존 방법에 가중치를 부여하는 방식으로 모델을 개선해서 성능 향상을 이뤄냈다. 제안하는 방법은 이 가중치를 계산하는 새로운 방법을 적용했고, 좋은 연구가 될 것 같다. 관련해서 관심을 갖고 공부를 해보면 좋을 것 같다.


도형록

금일 세미나 주제는 graph-based semisupervised learning이었다. Semisupervised learning은 소수의 labeled data와 다수의 unlabeled data가 있는 상황에서 두 데이터를 모두 활용하여 분석하기 위해 연구된 방법론이다. 접근 방식에 따라 크게 두 가지로 나누어지는데, 하나는 labeled data를 이용하여 unlabeled data의 label을 정확하게 할당하기 위한 transductive learning이고, 다른 하나는 일반적인 supervised learning task (regression/classification)을 수행하는 데 있어 labeled data와 unlabeled data를 모두 활용하여 보다 좋은 결과를 얻기 위한 inductive learning이다. 소수의 labeled data와 다수의 unlabeled data가 있는 상황에서 unlabeled data를 활용한다는 점에서 active learning과 비슷한 것 처럼 보일 수 있으나, 실제로 접근 방식은 전혀 다르다. 본 세미나에서 초점을 맞춘 주제는 transductive semisupervised learning이었으며, 그 중에서도 graph 기반의 방법론들이 소개되었다. 여러가지 방법론들이 소개되었지만 가장 기본적인 가정은 graph 상에서 인접한 경우 같은 label을 가질 가능성이 높다는 것이다. 따라서 원본 데이터로부터 graph를 도출하는 과정에 많은 영향을 받을 것으로 생각했다. 실제로 transductive learning을 수행하기 위한 알고리즘인 Gaussian field harmonic function (GFHF)이나 local and global consistency (LGC)의 경우 이미 주어진 그래프를 토대로 label assign을 시행하기 때문에 주어진 데이터를 잘 반영하지 못하는 graph 구성 알고리즘을 사용할 경우 GFHF와 LGC의 성능이 좋지 않은 것을 확인할 수 있었다. 세미나 발표자는 cluster 사이에 noise가 많은 경우에 좀 더 robust한 graph 구성 알고리즘을 사용하여 transductive learning의 성능을 향상시키려는 시도를 하였다. 그래프 구성 방법을 수정한 단순한 접근 방식으로 보일 수 있으나, 여러 단계의 검증을 거친다면 좋은 연구가 될 수 있을 것 같다.

 

최우식

이번 세미나에서는 graphical structure를 기반으로 하는 semisupervised learning 기법에 대해 전반적인 흐름을 알 수 있었다. 알고리즘의 전체적인 형태, 그리고 각 알고리즘들의 한계점을 잘 극복하기 위하여 어떠한 방식으로 발전했는지 잘 알 수 있었던 부분이 좋았다고 판단되며, 이러한 흐름으로 제안하는 방법 또한 데이터 상에 포함되어 있는 노이즈를 제거하고 manifold structure를 최대한 반영할 수 있도록 하는 방법으로 잘 발전되었다 생각이 되었다. 제시한 방법은 사실 k-NN graph 등 일부 정해진 과정이 있기에 이를 변경할 수도 있을 것으로 보이지만, 각각의 알고리즘들이 가지고 있는 장점들이 모여서 생성이 된 특성일 수 있으며, 결과 확인을 통해 이를 검증하는 것도 좋은 방법인 듯 하다. 데이터에 따라 결과가 다르게 나오는데, 제시한 방법이 어떠한 이유로 비교 방법에 비해 좋은 결과가 나왔는지에 대한 해석이 있다면 그 방법의 장점을 더욱 부각시킬 수 있을 것이라 생각하였다.


이한규

우선, semi-supervised learning에 대해 다시한번 개념을 정립할수있어서 유익한 세미나 였다. 레이블이 일부만 있는 경우, 일반적으로 KNN- based graph를 사용하여 SSL을 통해 클래스를 추정하게 된다. kNN-based graph를 반복적으로 학습하여 데이터의 클래스 레이블을 전파하는 형태의 Label propagation에 대한 내용을 들으면서 현재 연구하는 분야에서 본 세미나 내용을 응용할수 있지 않을까 라는 생각을 해봤다. overlap이 있을때, 추정되는 클래스 값[0-1]은 각 클래스별로 0.5 근처의 값을 갖게 될테고 그렇게 되면 이를 기준으로 overlap 지역을 분할할 수 있을 것 같다는 생각을 해봤다. 다만, noise에 취약점이 있지 않을까 라는 생각이 든다. 더불어 거리 기반 학습의 문제점인 고차원 데이터 하에서의 차원의 저주 문제 하에서도 과연 동일한 성능이 나타날수있을까 라는 생각이 들었다. 아마 이를 해결하는 것도 중요한 연구주제가 될 것이라 생각된다.


이슬기

오늘 세미나는 graph 기반 semisupervised leaning에 대해 다루었다. 발표자는 semisupervised leaning 기본적인 구별을 잘 해주었고 graph 기반 방법들에 대해 최대한 잘 설명하고자 하는 것을 느낄 수 있었다. GFHF와 LGC 경우, 각각의 방법들을 우선적으로 설명하고 두 방법을 동등하게 비교하는 장표를 통해 차이점에 대한 이해를 도운 부분이 매우 좋았다. 발표자는 semisupervised leaning 방법론을 개선할 수 있는 커널방법적용 방법론 대해 제안하였고 여러 실험결과에 대해서도 보여주어 매우 많이 준비하고 열심히 해온 것을 느낄 수 있었다. 실제 현실문제에서 label을 알 수 없는 경우가 매우 많은데, 발표를 들으며 궁극적으로 어떤 분야에 방법론을 적용하면 좋을지에 대해 고민할 수 있는 기회였다.


이상민

semisupervised learning은 labeled data가 부족한 상황에서 unlabeled data를 활용할 수 있는 기법전략이다. 금일 발표한 내용은 Graph 기반의 학습전략과 관련된 부분으로, 특히 LGC는 기존에 알려져 있는 정보량의 부정확성을 clustering에 기반하여 판단하여 penalty를 줄 수 있는 특징이 있다. 유재홍 연구원은 이에 더 나아가 density kernel을 반영함으로써, 기존 방법보다 더 뛰어난 분류 정확도를 보였다. 특히, 보다 적은 수의 labeled data에서 더 뛰어나다는 점에서 레이블 파악에 필요한 비용이 극히 비싼 경우 본 연구의 필요성이 더 해질 것으로 보인다. 좋은 연구성과를 소개해준 재홍이에게 감사의 인사를 전하며, 더 뛰어난 연구적 성과를 낼 수 있기를 바란다.

 

강성현

금일 발표 내용을 통해 Semisupervised Learning에 대한 전반적인 내용을 정리할 수 있어서 좋았다. 특히 오늘은 그래프 기반의 방법론에 중점을 두었는데 Gaussian Field Harmonic Function에서 부터 문제점을 극복하면서 Local and Global Consistency까지 발전하는 과정을 쉽게 이해할 수 있었다. 오늘 소개한 실험 시나리오에서와 같이 클래스별 매우 소수의 정보만을 사용하는 극단적인 경우가 현실에서는 많지 않으므로 노이즈에 민감한 문제가 있다고 하더라도 약 10% 정도의 기본 데이터만 주어질 수 있다면 충분한 성능을 보장할 수 있으리라 생각된다. 다만 초기 정보에 민감한 문제가 있으므로 Active Learning과 같이 어떤 샘플에 라벨을 부여할 지에 대한 고민이 조합된다면 더 훌륭한 방법론이 되지 않을까 생각된다.

 

 

박찬희

Semisupervised learning은 label을 가지는 관측치가 supervised learning 모델을 구축할만큼 충분하지 않을 때 적용할 수 있는 기법이다. Semisupervised learning은 크게 generative model, graph-based method, 그리고 co-training으로 구분 할 수 있다. Graph-based method는 관측치 간의 유사도를 이용하여 네트워크를 만들고 인접해 있는 관측치들에게 같은 label을 부여한다. 이를 위해 사전에 알고 있는 label을 바탕으로 iteration을 반복하면서 관측치들의 label값을 추정하게 된다. Iteration을 반복함에 따라 수렴된 label값으로 최종 label을 결정할 수 있다. 대표적인 방법으로 Gaussian Field Harmonic Function(GFHF)이 있으며 최근에는 잘못 부여된 label값을 조정할 수 있는 LGC 기법이 제안되었다. 발표자는 Geodesic distance를 이용하여 noise에 취약한 LGC 기법을 대체할 수 있는 Graph-based semisupervised model을 제안하였다. 실험결과 다양한 실제데이터에서 기존 기법보다 좋은 성능을 보여주었다. 제안기법은 Noise가 존재하는 다양한 실제 문제에 매우 유용할 것으로 생각된다. 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침