::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Conference Review  

2017 대한산업공학회_춘계학술대회 - 유재홍

작성자 유재홍 작성일 2017-05-01 오후 7:31:09
내용

​<발표후기>

이번 학회에서는 "Ensemble Clustering-based Label Propagation for Semisupervised Classification"을 주제로 발표하였다. 전통적인 데이터마이닝 방법론의 경우 레이블의 정보를 활용하여 레이블 간의 분류성능을 최대화할 수 있는 분류경계선을 구축하는 것을 목적으로 하는 Supervised learning과 레이블 정보를 활용하지 않고 데이터에 내재되어 있는 그룹이나 패턴을 탐색하는 Unsupervised learning으로 분류할 수 있었다. 하지만, 레이블의 정보를 활용하여 분류 및 예측 등의 분석을 수행하기 위해서는 많은 수의 레이블이 존재하는 데이터가 필요하지만, 레이블을 얻는데 상당한 시간과 비용이 소모되기 때문에 이러한 분석은 많은 경우에 바로 적용하기 어려운 실정이다. 이러한 상황에서 Semisupervised learniong 방법론이 개발되었다. Semisupervised learning 방법론은 분석 목적에 따라 레이블이 존재하지 않는 데이터의 레이블을 예측함으로써 레이블이 부여된 정보를 최대한 확보하는 것에 중점을 두는 Transductive learning과 레이블이 존재하지 않는 데이터의 레이블을 예측함과 동시에 예측된 레이블 정보를 바탕으로 새로운 데이터 (Testing 데이터, Unseed 데이터)의 레이블을 정확하게 예측할 수 있는  최종적인 레이블간의 분류 경계선까지 구축하는 것을 목적으로하는 Inductive learning으로 분류할 수 있다. 본 연구에서는 Inductive learning까지 확장할 수 있는 방법론에 초점을 맞추어 연구하였다. 또한, Semisupervised learning 방법론은 레이블의 분포패턴에 따른 가정에 기반하여 레이블을 예측하게 되는데, 대표적인 가정으로는 Smoothness assumption, Cluster assumption, Manifold assumption을 들 수 있으며, 본 연구에서는 Smoothness assumption에 기반한 방법론을 연구하였고, 이러한 방법론들 중 Label propagation을 중점적으로 연구하였다. 기존의 Label propagation 방법론은 각 관측치들의 데이터의 지역적인 구조를 반영하기 위해서 k-인접이웃 구조를 구축한 후에 이를 바탕으로 Label propagation을 수행하게 된다. 하지만, 이러한 방법론들은 몇 가지 한계점을 가지고 있다. 우선, k-인접이웃 구조를 구축하기 위해서는 파리미터 k를 설정해야하는데, k-NN 기반의 방법론은 k의 변화에 따라 성능이 상당히 민감하게 변동한다고 알려져있다. 또한, 기존의 방법론들은 유클리디언 거리를 바탕으로 k-NN 구조를 탐색하게 되는데, 데이터의 차원이 증가함에 따라서 유클리디언 거리는 관측치들 간의 관계를 효과적으로 반영할 수 없다는 한계점으로 인해서 기존의 방법론의 성능은 저하된다. 마지막으로, 대표적인 방법론들인 Gaussian Field Harmonic Function (GFHF)과 Local and Global Consistency (LGC)의 경우는 k-NN 그래프를 구축한 후에 Label propagation을 수행하게 되는데, 이러한 k-NN 그래프는 학습 데이터만을 활용하여 구축되므로, 새로운 데이터 (Testing 데이터)의 레이블을 예측하는데 직접적으로 적용할 수 없다는 한계점을 가지고 있다. 이를 위해서 본 연구에서는 앙상블 군집화 기반의 Label propagation 기법을 개발하였다. 보다 자세하게는 임의 부분 공간 기법과 임의-k 앙상블 기법을 활용하여 다수의 군집화 결과를 도출하고 군집화 결과들을 합의 행렬로 요약한 후에 이 행렬을 바탕으로 레이블을 순차적으로 전파하는 기법을 제안하고자 한다. 다양한 실제 데이터에 대해 제안하는 레이블 전파 알고리즘을 적용한 결과, 제안 기법의 우수성과 효율성을 입증할 수 있었다. 이번 학회에서는 발표 슬라이드를 준비하는데 있어서 연구의 목적과 핵심이 되는 부분을 명확하게 드러내고자 했고, 제안기법의 장점을 부각시킬수 있는 부분을 소개하는데 중점을 두었다. 특히, 청중들에게 연구내용을 좀 더 잘 전달할 수 있도록 발표자료를 효과적으로 구성하는데 시간이 소모되었다. 하지만, 발표연습이 부족하였는지, 제안기법의 적용결과 및 기존 기법들과 비교결과를 설명하는 뒷 부분부터는 발표가 자연스럽게 넘어가지 못하였다. 뿐만 아니라, 발표흐름이 매끄럽지 못했던 부분이 있었는데, 이는 향후 본 연구결과를 소개하는 학회나 세미나에서 보완할 것이다.

 

- 질문사항

 

질문 1. Random subspace 기법을 활용함으로써 고차원 데이터를 효과적으로 다룰 수 있다는 점이 잘 이해가 가지 않는다. 어떠한 원리로 인해서 고차원 데이터에 대해 효과적으로 적용될 수 있는가?

답변: Random subspace기법은 일부 변수만을 임의 추출하여 다수의 부분공간을 구성하고, 각 부분공간에서 모델을 구축하는 방법론을 의미한다. 이때 적은 수의 변수를 활용하여 모델을 구축하기 때문에 고차원 데이터를 보다 효과적으로 다룰 수 있다. 

 

질문 2. Label propagation을 수행하기 위한 최적화 방정식을 보면 QP 형태인데, 데이터의 크기가 증가함에 따라서 계산복잡도의 이슈가 있을 것이라 생각된다. 이에 대한 해결방안은 무엇인가?

답변: Label propagation을 수행하는데 QP 기반의 최적화 방정식을 적용하는 것은 모든 방법론이 공통된 부분이므로, 이러한 높은 계산복잡도는 기존 방법론이 근본적으로 가지고 있는 이슈사항이라고 생각한다. 추후 연구에서는 이러한 계산 복잡도에 대해서 좀 더 연구를 수행할 것이고, 이를 통해 QP문제를 보다 효율적으로 해결할 수 있는 방안에 대해서 연구해볼 것이다.

 

 

<청취후기>

1. 딥러닝 기법을 활용한 반도체 wafer bin maps의 혼합 불량 패턴 분류

이번 학회에서는 딥러닝을 활용하여 다양한 실제문제를 해결하고자한 연구가 많이 발표되었다. 이러한 연구들 중 가장 흥미롭게 들었던 발표는 웨이퍼에서 생성될 수 있는 다양한 불량 패턴들을 분류하기 위해 딥러닝 알고리즘을 적용한 것이었다. 이 연구에서는 웨이퍼에서 발생할 수 있는 패턴들을 정의하고 이러한 패턴들을 이미지 형태의 가상 데이터로 생성하고 이를 딥러닝 알고리즘을 적용하여 상당히 높은 분류 정확도를 달성하였다. 딥러닝 알고리즘이 매우 유용하게 활용될 수 있다는 것을 다시 한번 느낄 수 있었고, 좀 더 깊게 공부해야겠다는 생각이 들었다. 특히, 발표자가 전처리에서 활용하였던 Radon transformation이라는 방법론이 매우 인상깊었다. 학회가 끝난 후 이 방법론에 대해 검색을 해보았는데 x-ray와 같은 단층촬영 이미지 데이터를 분석하는데 널리 활용된다고 알려져 있다. 이 방법론에 대해 좀 더 공부하여 이미지 데이터를 분석하는데 활용해봐야 겠다는 생각이 들었다.

 

2. 불균형 데이터 분류를 위한 가중 나이브 베이지안 분류기의 새로운 학습방법

나이브 베이지안 분류기의 경우 데이터의 클래스를 분류하는데 널리 활용되는 모델이다. 하지만, 불균형 데이터를 분류하는데 있어서 일반적인 나이브 베이지안 모델은 다수 클래스에 대해 편향되어 모델이 구성되는 경우가 있는데, 이를 활용하기 위해서 발표자는 AUC를 soft AUC라는 수식으로 나타내었다. 특히, 각 변수에 대한 가중치를 주어 이 이 soft AUC를 가중치의 합으로 표현하고 soft AUC를 최대화 하는 것을 목적식으로 설정한 최적화 방정식을 풀게된다. 이때 각 가중치에 대한 비음조건을 제약조건으로 설정하였는데 이는 Regularization과 같은 효과를 얻을 수 있다 (즉, 과적합의 오류를 방지할 수 있다.). AUC를 수식으로 표현한 부분이 상당히 흥미로웠고, 또한 각 변수에 대한 가중치에 대한 비음조건을 추가함으로써 Regularization 기반의 방법론과 같은 형태로 변형한 것 역시 매우 흥미로운 부분이었다.​ 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침