::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Semi-Supervised Active Learning with Multiple Criteria (발표자: 박성호)

작성자 박찬희 작성일 2016-07-13 오후 5:50:49
내용

발표자 Summary

 

박성호

본 세미나에서 다룬 내용은 active learning with multiple criteria로, 대표적인 sample selection strategies 부터 여러 기준을 조합해서 최적의 sample를 선택하는 방법까지 소개하였다. 특히, 다양한 전략 중 regression 문제에 쉽게 적용될 수 있는 variance reduction 기반의 방법들을 소개하였다. variance reduction 기반의 active learning은 statistic에서 optimum experiment design으로 연구되고 있는 방법이다. 본 세미나에서는 linear regression 기반의 optimum experiment design서 파생된 semi-supervised 방식의 optimum experiment design 대해서 자세히 다루었고 더 나아가 현재 진행 중인 연구에 대해서도 간략히 소개하였다. 마지막으로 세미나에서 다루었던 내용이 많았음에도 불구하고 적극적인 질문과 관심을 가져준 동료 연구원들에게 감사한 마음을 전한다.

 

 

청취자 Summary

 

곽민구

금일 세미나는 semi-supervised active learning에 대한 주제와 더불어, 이 분야에서 주로 연구되는 classification 문제가 아닌 regression 문제를 해결하기 위한 variance reduction에 대해서 다루었다. 또한 Self-organizing map based laplacian matrix를 이용해 sample selection을 수행하는 방법론을 제안하였다. 우리가 분석하는 데이터는 기본적으로 class label을 포함하는 데이터셋이지만, 실제 '얻을 수 있는' 데이터의 label을 전부 붙이기 위해서는 많은 시간과 비용이 필요하다. 이를 해결하기 위해서 active learning은 소수의 labeled data과 모델을 사용하여 다수의 unlabeled data pool을 labeling하는 개념이다. 이를 위해서는 'label을 붙여야 하는 데이터'를 찾는 문제를 해결해야 하는데 보통 분류하기 까다로운 데이터를 labeling하는 uncertainty sampling 기법과 전체적인 error를 줄이기 위한 expected error reduction 기법이 주로 사용된다고 한다. Semi-supervised learning에서 사용하는 Laplacian regularization을 사용하는 model optimization에 대해서도 소개가 되었는데 이미지 데이터 등에서 많이 찾을 수 있는 Manifold 특징을 반영할 수 있어서 널리 사용되는 기법이라고 한다. 하지만 k-nn에 기반한 모델이기 때문에 이상치에 대해서 민감할 수 밖에 없는데, 이를 해결하기 위해 박성호 연구원이 제안한 모델에서는 SOM을 사용하여 robust한 모델을 구축하고 density와 diversity를 동시에 고려해 각 cluster 별로 중요한 data point를 추출할 수 있는 알고리즘을 제안하였다.

 

강성현

우선 후기에 앞서 개인의 많은 고민이 느껴지는 세미나였으며, 그간 생각했던 내용을 상세하게 전해준 점에 대해 고마움을 전하고 싶다. 성호가 제안한 active learning 방법론의 특징은 SVM과 유사한 supervised learning의 방법론을 활용한 것이 아닐까 생각한다. 기존 방법론은 semi-supervised learning과 유사한 방법을 취하는 경우가 많다. 모든 샘플의 불확실성을 평가하여 불확실한 샘플을 추가 후 모델을 구축하고 다시 나머지 샘플 중 하나를 선정하는 과정을 반복하는 식이다. 그러나 오늘 제안된 방법론은 모델의 분산을 최소화하는 최적화 식의 해를 구함으로써 원하는 수 만큼의 샘플을 선정할 수 있는 장점이 있다. 또한 샘플을 선택하는 과정에서 SOM의 클러스터링 방법을 일종의 네트워크 구조로 간주하여 각 클러스터링의 중심값을 기준으로 데이터를 골고루 선택하도록 고려한 점도 돋보였다. 물론 레이블이 없는 데이터에서 선택하고 싶은 데이터 수의 조합만큼 모델 구축이 필요하다던지, 최적 파라미터 도출을 위한 연산 비용이 다소 높은 점은 단점일 수 있다. 그러나 자동화된 부품 산업의 경우 공정 데이터는 실시간 스트리밍으로 쌓이지만 검사장비가 대당 수천억원에 이르는 경우도 있기 때문에 폐기되는 데이터들이 많다. 이러한 상황을 고려한다면 충분히 감당할 수 있는 수준이 아닐까 생각된다. 학문/실용적 가치가 모두 느껴지는 연구로 사료된다. 

 

김영훈

오늘은 Label 이 붙어 있지 않은 관측치들을 선택해서 Label 을 붙여가면서 모델의 성능을 향상시키는 Active Learning 에 대해서 공부할 수 있었다. 세상에 있는 많은 데이터들에는 시간과 물리적적, 지식적 자원의 한계로 인해 Label 이 없는 데이터가 많이 있다. 이러한 데이터로 가지고 현실 문제를 해결하게 되면 Label 또는 대표값이 없기 때문에 실제 기계학습 모델을 학습시킬 때는 적은 수의 샘플들을 가지고 학습을 시작한다. 그리고 나서 예측 성능을 향상시킬 수 있는 중요한 데이터를 추가적으로 선별하면서 경제적으로 모델 성능을 높여가게 되는데, Active Learning 은 이러한 상황에서 어떠한 데이터가 중요한 지, 중요한 데이터를 어떻게 뽑아서 모델 학습 능력을 향상시키는 지에 대한 연구의 총칭이다. 어떠한 데이터가 중요한 지를 결정하는 기준은 여러 가지가 있을 수 있다. 오늘 세미나에서는 그 여러 가지 기준을 조합하여 선별하는 방법에 대해 이야기를 들을 수 있었다. 제안하는 방법은 SOM 을 이용해서 학습을 하는 방법에 대해서 소개를 했는데, KNN 그래프를 구축한 후 Manifold Regularization 을 하는 것과 SOM 을 이용해 Representative Node를 찾고 하는 것과의 차이가 무엇인지 명확하면 더 좋을 것 같다. 추가적으로 다양한 기준의 조합으로 추가 데이터가 선택되게 되는데, 다양한 기준의 조합에 대해서 좀 더 명확한 연구가 진행되는 것도 좋을 것 같다는 생각이 들었다. 

 

박찬희

Supervised learning은 label을 가진 데이터를 이용해 모델을 구축한다. Label을 구하기 위해서는 대부분의 경우 시간과 비용이 많이 소모되며, 경우에 따라 label을 알 수 있는 관측치 수가 매우 제한적인 상황이 있을 수 있다. Active learning은 모델 구축을 위해 이용되는 label을 지닌 관측치를 능동적으로 샘플링하는 기법이다. Active learning은 크게 membership query synthesis, stream-based selective sampling, pool-based sampling으로 구분된다. Pool-based active learning은 수집되어 있는 관측치 중 label을 가질 관측치를 선택하는 방법이다. 일반적으로 classification에 주로 적용되고 있으며 샘플링되는 기준으로 uncertainty measure를 이용한다. 이외에도 relevancy, density, diversity를 기준으로 샘플링을 수행한다. Regression 문제에서는 uncertainty measure 대신 y값의 variance를 이용한다. 발표자는 비선형분포를 잘 반영할 수 있는 SOM을 이용하여 relevancy, density, diversity를 구하고 y값의 variance를 나타내는 D-optimal criterial를 이용하여 label를 지닌 관측치를 샘플링하였다. 본 연구는 laplacian regularized regression에 active learning을 적용하여 기존 방법에 비해 높은 성능의 예측모델을 구축하였다. 

 

정영재

성호의 "Semi supervised learning with multiple criteria"란 제목의 세미나를 들었다. 정확히는 Semi supervised라기보다는 Active learning이다. Active learning이란, 데이터를 학습한 후 추가 데이터 획득시, 최적의 데이터를 선택하여 label을 붙이는 방법을 말한다. 물론 모든 데이터에 대한 label이 있으면 좋지만, label을 획득하는 과정에는 돈이 들거나 다른 비용이 발생하기 때문에, 최적의 데이터를 선택하고자 한다. Active learning이 사용되는 곳은 이미지&비디오 데이터, 사기감지, 웹페이지 분류 등으로 이 외에도 여러분야에서 사용된다. Active learning은 앞서 말했듯이 semi supervised learning과 조금 다른데, Active learning은 모델 형성 후, 모델을 갱신할 때 새로운 학습 데이터에 대한 label을 직접 붙여주는 반면, semi supervised learning은 학습된 모델이 label을 붙여준다. Active learning에서 데이터를 선택하는 방법은 분류선을 기준으로 분류선과 가까운 데이터를 학습하는 방법, 학습된 model로 label을 붙인 후 다시 modeling 할 때 error가 많이 줄어드는 data의 label을 붙여주는 방법 (즉 semi supervised 방식으로 진행시 에러율이 줄어드는 데이터), ensemble model에서 각 model의 prediction 차이가 많이 나는 데이터를 선택하는 방법 등이 있다. 이번 세미나를 통해 active learning에 대한 개요를 알 수 있어서 좋았고, 성호가 제안하려는 방법 또한 흥미로웠다. Active learning의 기존 방법 중 분류선을 기준으로 하는 방법은 이상치에 영향을 많이 받고, error 기준 방법은 학습시간이 많이 소요되는데 이 둘의 장점을 조합한 방법을 연구하는 것도 재미있을 것 같다.

 

이슬기

오늘 세미나는 Active learning에 대해 다루었다. 기존 연구들에 대해 많은 리뷰가 있었고, 본인이 제안하는 연구까지 많은 양의 공부를 진행한 것이 느껴졌다. 발표자가 제안하는 방법론은 regression 모델의 성능을 높일 수 있는 샘플링을 Active learning을 이용하여 효과적으로 하겠다는 것이다. 이를 위해 Laplacian regularized least square 방법에서 unlabeled data간의 유사도를 나타낼 수 있는 term을 k-nn그래프에서 SOM의 결과값으로 대체했으며, 이 결과값을 여러 criteria를 반영하도록 수정하였다. 흥미롭고 좋은 연구인 것 같다. SOM을 이용했을 때의 장점과 활용도에 대해 더 강조하는 부분을 추가하여 보여주면 좋을 거 같다.

 

손지은

이미지 데이터에 있어 Active learning을 적용한 사례는 종종 보았지만 Classification이 아닌 Regression 문제에 있어서는 잘 모르고 있었다. 오늘 세미나에서는 Laplacian regualrized least square에서 Optimal solution 부분을 통해 Variance reduction을 하고 나아가 Relevance와 Diversity까지 고려한 실험 결과를 보여주었다. Semi-supervised 문제를 해결하기 위해 실험계획법 분야에서 각광받는 기법들을 적용했다는 것이 좋은 아이디어이다. 제안하는 알고리즘에 대해 실험한 부분에서는, 기존의 클러스터링 기법을 사용하였을 때와 SOM을 사용하였을 때 성능 차이도 궁금하였다.

 

이한규

다량의 데이터 모든 값에 클레스를 부여하는 것은 비용적인 측면에서 매우 어려운 부분이다. 특히나 매일 발생하는 수많은 문서, 이미지 등등 모든 것에 클레스를 부여하는것은 거의 불가능에 가깝다고 생각된다. 따라서 오늘 세미나에서 다룬 active learning은 가지고 있는 근본적인 문제점을 해결할 수 있는 방법이라고 생각된다. 다수의 데이터에서 소량의 데이터만을 선택적으로 샘플링하여 분류모델 혹은 예측모델을 반복적으로 구성하는 active learning의 프로세스상 소수의 샘플 선택에 있어 어떠한 샘플을 어떻게 선택할 것인지가 매우 중요한 문제가 (연구주제)가 될 수 있다. 그러한 측면에서 오늘 다룬 다양한 방법들은 이러한 의문을 정리할 수 있는 좋은 기회였다고 생각한다.

 

박지예

Today's seminar on semi-supervised active learning with multiple criteria was an interesting topic. It discusses and goes over different ways to conduct the analyzing process but specifically on the uncertainty sampling. It emphasizes the idea of sampling all the different models to find the error. This could be a very accurate and reduces the amount of errors it makes but can also be an extremely tedious and a time consuming process. 

 

강현구

오늘은 active learning을 주제로 세미나가 진행되었으며, 발표자의 개인연구에 대한 내용도 간략하게 소개되었다. Active learning은 주어진 데이터에 label이 없는 개체 수가 많을 때, label이 없는 그 데이터들을 최대한 활용하여 분류 혹은 회귀 예측정확도를 높이는데 사용되는 방법론이다. 오늘은 발표자가 이례적으로 하나의 논문을 소개하기보단 active learning이라는 분야를 포괄적으로 다루어준 덕분에 이해가 한결 수월하였다. 발표자는 해당 분야에서 기존에 행해진 연구가 분류 문제에 한정되어있는다는 점에 착안하여 회귀 문제에도 적용 가능하다고 판단하였다. K 근접 이웃 그래프에 기반하여 active learning을 수행할 경우, graph의 성공적 구축 여부에 따라서 학습 성능이 크게 좌지우지된다. 따라서 발표자는 knn 그래프가 아닌 self organizing map을 이용하여 criteria를 정하였고, 그 결과 기존보다 높은 성능을 보일 수 있었다. 향후 해당 분야의 연구에서 발표자가 꾸준한 성과를 보일 수 있으면 좋을 것 같다.

 

이상민

금일 발표주제인 active learning은 부족한 labeled data가 주어진 상황에서 unlabeled data를 최대한 활용하여 예측성능(분류 또는 회귀)을 높이는 기법이다. 문제상황이나 기법의 목표가 semi-supervised learning과 유사하다. 무엇보다 상대적으로 많이 확보할 수 있는 unlabeled data를 활용한 예측성능 개선책이라는 점에서 유사하고, 또한 기존 labeled data로부터 추정된 분포(또는 모델)에 의해 unlabeled data를 정보량을 측정하는 방식에서도 그 유사성을 찾을 수 있다. 하지만, 둘 간의 차이점은 unlabeled data의 최종 label 부여방식에서 찾아볼 수 있다. active learning에서 가장 정보량이 높은(또는 entropy가 높은) unlabeled data를 선정했을 때, labeled data로부터 직접적으로 붙이는 것이 아니라, 가장 모호한 data에 대한 label을 oracle(사람 또는 계측기 등)에게 묻는다는 점에서 그 차이가 있다. 반면 기존에 소개된 semi-supervised learning에 속하는 기법들은 여전히 data-driven 된 방식에 따라 label을 지정하는 메커니즘을 포함시키고 있다. 누가 더 낫다는 우열을 가리거나 누가 더 큰 개념이라는 논쟁 자체는 무의미하다. 각자가 추구하는 문제상황과 해결방법이 다를 뿐이다. 금일 세미나의 주내용은 uncertainty sampling을 어떻게 잘 할 수 있느냐와 판단기준(measure)는 무엇으로 정할 것이냐 였다. 성호 연구원이 제안한 모델은 unlabeled data를 통하여 보다 일반화(generalization) 성능을 높이도록 방법론 적용 연구이다. 기존 regularized regression 연구 대비 outlier에 더 강건하게 동작할 수 있도록 SOM의 적용을 제안하였다.

 

박영준

금일 세미나에서는 성호가 semi-supervised active learning와 관련하여 진행한 연구내용을 설명하였다. Active learning에 대해서 간략히 설명을 하고 왜 semi-supervised learning의 개념을 차용하여 semi-supervised active learning을 연구하게 되었는지 이해하기 쉽게 잘 설명하였다. 또한 기존의 active learning 에서는 잘 다뤄지지 않던 regression 문제를 해결하기 위해 상대적으로 적용이 용이한 variance reduction 기법을 이용하였다. 이때 semi-supervised learning의 개념에서 차용한 laplacian regularization 기법을 이용하여 레이블이 없는 데이터를 모델링 과정에 사용할 수 있게 하였다. 성호의 연구는 laplacian regularization 에서 필요한 데이터의 manifold 구조를 SOM을 이용하여 계산하는 방법론을 제시하였다. 세미나를 하는 동안 왜 이러한 방법론을 생각하게 되었는지 잘 이해할 수 있도록 성호가 세미나를 잘 진행했다고 생각한다.

 

 

 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침