::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Feature Selection in Classification Based on Distance Measure (발표자: 최우식)

작성자 관리자 작성일 2016-10-03 오전 3:07:57
내용

발표자 Summary

 

최우식

이번 세미나에서 소개한 내용은 거리를 기반으로 하여 변수를 선택하는 방식이다. 거리로는 우리가 일반적으로 생각할 수 있는 눈으로 보이는 거리인 Euclidean distance, 그리고 Euclidean distance에 분산 개념을 도입한 Mahalanobis distance 이외에도, 두 확률분포의 차이를 숫자로 반영한 값을 사용할 수 있다. 오늘 예시로 설명한 Bhattacharyya distance, Hellinger distance, Kullback-Leibler distance 이외에도 다양한 확률 거리 측정 방법이 있으며, 분류 문제에서 변수 및 클래스 별로 데이터의 분포 차이가 분명하게 존재하는 경우에는 클래스를 분류하기에 좋은 변수라 할 수 있다. 실제 문제에 적용하려면 다양한 요소들을 고려해야 하는데, 데이터가 정규분포가 아닌 경우에는 분포를 추정하여 사용해야 하고, 클래스가 여러 개인 경우에는 어떤 방식으로 거리를 산정할 것인지 등이 있다. 사실 이번 내용은 비교적 단순한 편이면서 학문의 순서로 보면 20세기 초중반으로 꽤나 과거에 있는 내용이긴 하지만, 이러한 연구도 있다는 것을 보여주기 위하여 준비하였다. 확률분포 차이를 거리로 표현할 수 있다는 개념 자체가 현재 사용하고 있는 발전된 모델들을 공부할 때 크게 고려하지 않거나 쉽게 놓칠 수 있는 부분이다. 개인적으로도 많은 도움이 되었고, 연구원들에게도 여러 방면으로 도움이 되었기를 희망한다.


청취자 Summary

 

유재홍
금일 세미나는 Feature Selection in Classification Based on Distance Measure을 주제로 진행되었다. 금일 세미나에서는 확률 기반의 거리척도를 바탕으로 변수선택을 하는 방법론들에 대해 자세하게 배울 수 있었는데, 이러한 방법론들은 변수의 분포에 따라 거리를 측정하는 방식을 차용한다. 분포에 대한 차이를 계산하는 방식은 Bhattacharyya distance, Hellinger distance, Kullback-Leibler distance을 활용하여 측정하게 된다. 이러한 방식의 특징은 클래스 간 평균차이 뿐만 아니라 분산에 대한 차이 역시 반영하여 변수를 측정하므로 변수를 분류하는데 있어서 보다 유용한 변수선택이 가능하다. 하지만, 이러한 기법들은 변수 개별적으로 고려되므로 변수들 간의 복잡한 상관관계를 고려할 수 없다는 한계점을 보인다. 이를 극복하기 위한 연구가 진행된다면 보다 실용적이면서 우수한 방법론이 개발될 것이라고 기대해본다.

 

김영훈
오늘은 확률 분포 차이에 기반한 거리 척도를 활용해서 중요 변수를 선택하는 방법에 대해서 배울 수 있었다. 변수 선택에는 선택시 트레이닝 모델과의 관계 정도에 따라 크게 Filter, Wrapper, Embedded 로 구분이 된다. 오늘은 이 중에서 트레이닝 모델과 관계가 전혀 없이 독립적으로 변수를 뽑는 Filter 에 대한 설명을 들을 수 있었다. 대표적인 Filter 로는 T 검정을 통해 군집 간에 평균 차이가 얼마나 나는 지 비교하는 방법이 있다. 계산 로드가 적고 성능도 좋은 방법이지만, 두 군집이 정규 분포를 따르고 이진 분할 되야 한다는 가정이 있다. 물론 이 가정은 상식적으로 합리적이지만 두 군집을 잘 구분하는 경우가 이진 분할 되는 경우만 있는 것은 아니다. 좀 더 일반적으로는 두 군집이 최대한 겹치지 않게 하는 변수가 가장 좋은 변수라고 할 수 있다. 이를 위해서 두 군집의 분포 차이를  측정할 수 있는 척도들을 사용한 Filter 방법들이 소개되었다. KL-divergence를 이용한 방법 Batacharyya 거리를 이용한 방법 등이 있었는데 모두 흥미로운 방법이었다. 기존 방법의 한계점은 이러한 거리들이 정규분포 가정을 하고 있다는 부분인데 분포 가정이 없으면서 두 집단을 잘 구분하는 Filter 방법이 없을 지 더 공부해보고 싶다. 

 

이슬기
오늘 세미나 주제는 feature selection 중에서도 filter 방법에 대해 다루었다. Filter 방식은 분류나 예측모델과는 독립적으로 데이터 자체의 특성을 보고 변수를 뽑는 방법이다. 대표적으로 t-test를 통한 변수선택이 있는데, 이는 평균의 차이만을 고려하기 때문에 분포차이가 크거나 멀티모드 형태의 다양한 데이터 형태에서 효과적인 변수선택이 불가능하다. 발표자는 이러한 다양한 상황을 고려할 수 있는 확률적 거리 지표를 이용한 변수선택 방법을 소개하였다. 기존에 이름만 들어보고 정확이 이해하지 못했던 Bhattacharyya, Hellinger 거리에 대한 원리를 정확히 이해할 수 있어서 좋았다. 많은 데이터마이닝 모델들은 거리를 기반으로 하는데, 점점 더 복잡하고 다양한 모델들이 등장하면서 기본적인 개념에 대해 잘 생각하지 못했던 것 같다. 기본으로 돌아가서 생각해볼 수 있는 좋은 시간이었다.

 

박찬희
많은 변수를 포함하고 있는 고차원 데이터에서 중요변수를 선택하기 위한 방법들이 많이 연구되어왔다. Filter는 예측모델을 이용하지 않는 변수 선택 방법으로 다른 방법들에 비해 쉽게 적용할 수 있다는 장점이 있다. 기존 t-test를 이용한 filter 기법은 클래스에 따른 데이터의 분산을 반영하지 못한다는 단점이 있다. 이를 해결하기 위해 PDF를 이용한 거리 measure가 제안되었고 이를 기반으로 filter 모델 구축 시 기존 t-test의 단점을 해결 할 수 있었다. 본 세미나에서 소개한 measure를 이용해 의사결정나무 모델에서 분할변수를 선택하는 방법을 연구해 볼 수 있겠다.

 

정영재
우식이의 "Feature Selection in Classification Based on Distance Measure"란 제목의 세미나를 들었다. 데이터의 차원이 크면, 결과가 안좋을 수 있다. 왜냐하면 데이터의 차원이 높을수록 많은 데이터가 필요한데, 보통 데이터가 그만큼 없기 때문이다. 또한 알고리즘 상에서 각 변수에 같은 가중치를 준다면 중요하지 않은 변수가 결과에 더 영향을 미치게 될 수도 있다. 따라서 결과에 좋은 영향을 줄 것이라 예상되는 변수들을 선택하는 것이 중요하다. Feature Selection은 크게 Filter방식과 Wrapper방식으로 나뉜다. Filter 방식은 모델을 고려하지 않고, 변수를 선택하는 방식이고, Wrapper 방식은 모델을 고려하여 변수를 선택하는 방식이다. 이중 일반적으로는 Filter 방식의 성능이 안좋으나, 계산량이 빠르고 간편한 등 여러 장점이 있다. 본 세미나에서는 Filter 방식의 Feature Selection을 할 때, 어떠한 거리척도를 사용하는 것이 좋을까에 대한 주제로 발표가 진행되었다. Feature Selection 시 자주 사용되는 t statistic은 거리를 기반으로 한 통계량이다. 따라서 거리가 가깝지만, 즉 overlapping 되어있지만, 분산이 다르기 때문에 Classification에 주요한 영향을 미치는 변수들은 선택되지 못하는 단점이 있다. 따라서 이러한 점을 보완하기 위하여 Symmetric Kullback-Leibler 등을 사용할 수 있다. 이번 세미나에서는 이런 통계량들의 결과비교를 보여줬는데, 거리척도 외에 분산을 고려하는 거리에 대한 소개 및 실험이 재미있었다. 한규형이 t statistic과 Kullback-Leibler Distance를 같이 사용하면 어떻겠느냐고 언급했었는데, 이런 방식도 효과가 좋지 않을까 싶다.

 

이한규
feature selection 방법에서 filter 방법에 관한 내용을 다뤘다. 일반적으로 알고있는 filter 방법들이라고 한다면 t-test를 활용한 변수 선택이 가장 먼저 생각이 나기 마련이다. 거리를 정의하고 정의된 거리가 가장 큰 변수가 무엇인가를 찾는 문제에서 오늘 다룬 방법은 각 클래스의 분포의 combination probability를 활용하여 거리를 정의 하고 이를 통해 다른 두 범주가 명확히 분리되는 feature를 선택하는 방법이었다. 어떤 의미에서 본다면 그동안 우리가 알고있는 거리 정의를 다르게 시도했다는 점에서 독특한 방법이라고 생각한다. filter method가 변수선택에서는 상당히 오래전부터 쓰인 방법이긴 하지만 요즘과 같이 변수의 개수가 많은 상황에서는 변수간의 독립을 가정하고 진행하는 filter method가 얼마큼 좋은 효과가 나타날지는 의문이다. 세미나에서도 우식이가 이야기했듯이 다양한  advanced 방법이 있었는데 warpper 방법들에 접목시켜 사용하는 것도 좋을 것 같다.

 

곽민구
금일 세미나는 분류 문제에 있어서 거리개념을 사용한 변수선택 방법에 대하여 진행되었다. 변수선택은 차원의 저주를 피하고, 효과적인 모델링을 위해 필수적인 과정이다. Filter, Wrapper, Embedded Method로 분류되는데, 이 중에서 learning algorithm이 변수선택에 영향을 미치지 않는 Filter가 금일 세미나의 주제였다. 가장 기본적인 방법인 t-test, 두 클래스의 확률분포의 곱을 거리 개념으로 바꾼 Bhattacharyya Distance와 Hellinger Distance 등의 개념과 특징을 소개하였다. 평균과 분산의 차이를 이용하여 특정 변수가 클래스를 구분하는데 있어서 유의미한 것인지를 판별하는 여러 척도들이었다. 하지만 공통적으로 정규분포를 따른 다는 가정과 각 변수가 독립이라는 가정을 가지고 있는 개념들이기 때문에, 실제 데이터에서의 분포추정, 공분산의 고려 등의 과제가 남아있는 분야라고 생각된다.

 

이상민
금일은 변수선택(feature selection) 기법 중 Filter 항목에 해당하는 알고리즘에서 활용 가능한 distance-based measure의 이해도를 높이는 시간이었다. Filter 방식으로 변수선택 시 t-test나 f-test와 같은 방식으로 통계적 특성치에 따라 구분이 가능하다. 그러므로 통계적 모델(분류 또는 회귀)구축에 국한되지 않고 변수 선택이 가능하다는 장점이 있으며, 연산에 대한 시간복잡도(time complexity)가 극히 낮은 장점이 있다. 금일 세미나의 주요내용은 분류(classification)문제에 대한 변수선택 시 분산을 고려한 거리 정보의 활용이 유용하다라는 점이다. Bhattacharyya distance 등을 활용하는 경우, 분류대상인 두 집단 간 관측치 확률밀도함수(pdf) 면적의 겹쳐진 정도를 거리정보로 환산함으로 써, 두 집단을 효과적으로 분류하는 변수들을 선별할 수 있다. KL divergence도 같은 맥락에서 해석할 수 있음을 확인했다. 변수선택의 filter 방식의 이해를 도모하는데 유익한 설명을 들을 수 있어 좋았다.

 

손지은

Feature Selection 중 Filter 방식에 대한 내용을 다루었다. t-test에서의 유의변수 선택 방식에 대한 문제점을 설명한 뒤, 데이터간의 평균, 분산을 고려한 거리 정보를 활용하는 방법을 소개하였다. 두 클래스의 확률분포의 곱을 거리 개념으로 바꾼 Bhattacharyya Distance, Hellinger Distance, Kullback-Leibler distance 에 대해 상세히 설명하였는데 매우 논리적인 접근방식이었다. Feature selection 중에서도 Filter방식에 대해서는 깊게 생각해볼 수 있는 좋은 기회였다. 실제데이터에 적용한 사례를 들고, 다른 방법과의 차이를 비교한다면 좋은 연구가 될 수 있겠다.

 

강성현

오늘 소개된 내용은 다양한 거리측정 방법을 활용한 변수선택 방식이다. 거리 개념으로는 일반적으로 Euclidean distance를 떠올리기 쉽지만, 분산 개념을 도입한 Mahalanobis distance, 두 확률분포의 차이를 거리로 본 Bhattacharyya / Hellinger / Kullback-Leibler distance 등이 있다. 이 중 Bhattacharyya / Hellinger / Kullback-Leibler 는 다른 레이블의 데이터간 분포 차이를 확인할 수 있으므로 각 입력 변수의 중요성을 평가하는데 활용할 수 있다. 이렇듯 각 변수를 독립적으로 중요성을 평가하여 선택하는 방식을 필터 방식이라고 부른다. 필터 방식은 1970년대 초창기의 변수선택 방법으로 적용이 매우 간편한 특징이 있다. 이 방법을 통해 연구 모델의 성능을 향상시키는 용도로 사용하기 보다는 데이터 탐색과정에서 데이터의 성격을 파악하는 용도로 유용하게 사용할 수 있을 것으로 생각된다.

 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침