::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Overview of Kernel Functions (발표자: 유재홍)

작성자 관리자 작성일 2016-08-19 오전 9:33:02
내용

발표자 Summary


유재홍

금일 세미나에서는 Kernel function들에 대한 개괄적인 소개를 하였다. 일반적으로 모델의 성능을 향상시키기 위해서는 변수선택이나 특징추출과 같이 차원을 축소하는 방법론이 많이 활용되는 반면, Vapnik은 비선형 패턴을 갖는 데이터에 대해서 보다 높은 성능을 보이기 위해서 고차원으로 mapping 시키는 것이 더 좋을 수도 있다는 이론을 발표하였다. 이를 위해서 feature space라는 고차원으로 관측치들을 사영시키는 feature mapping function을 적용하게 되는데, 이러한 feature mapping function으로 사영을 하게 되면 차원이 상당히 증가하게 되어 오히려 curse of dimensionality에 빠질 수 있을 뿐만 아니라, explicit한 형태의 feature mapping function을 정의하는 것이 매우 어렵다. 이를 해결하기 위해서 feature mapping function을 inner product한 형태의 함수로 표현하여 사용하는데, 이러한 함수를 kernel function이라고 한다. Kernel function은 본 차원 (original space)상의 관측치들 간의 유사도 형태로 측정되므로 feature mapping function자체를 사용하는 것에 비해서 kernel function을 사용하는 것이 훨씬 편리하다는 장점을 갖는다. 이러한 kernel function은 이와 매칭되는 feature mapping function이 반드시 존재해야 하는지에 대한 의문이 들었는데, 이러한 의문점을 해결하기 위한 이론이 바로 Mercer's theorem이다. 이 이론은 kernel function이 continuous하고, symmetric하며, positive definite의 조건을 만족한다면, 이 kernel function을 만들 수 있는 (즉, 이 kernel function과 매칭되는) feature mapping function이 반드시 존재한다는 것이다. 또한, 이 성질을 이용하여 feature mapping function을 정확하게 모르더라도 kernel function을 이용한다면 기계학습 모델을 구축할 수 있다는 것이 kernel trick이다. 한편, 기존의 kernel function들은 유사도의 형태로 계산이 되는데, 이러한 유사도는 결국 전통적인 거리척도 기반으로 계산이 된다. 다시말해, 기존의 kernel 함수들은 전통적인 거리척도가 갖는 문제점을 가지고 있다고도 볼 수 있는데, 이는 매우 복잡한 패턴을 보이는 데이터 (ex) 지역패턴을 보이는 swiss roll형태의 데이터나 매우 복잡한 비선형 패턴을 갖는 데이터)에 대해서 좋은 성능을 보일 수 없다. 이를 극복하기 위해서 데이터의 지역성을 보다 잘 반영할 수 있는 manifold 기반의 kernel 함수들이 제안되었고, 이들 중에서 ISOMAP-based kernel함수를 소개하였다. ISOMAP-based kernel function은 geodesic distance를 거리척도로 하여 이를 MDS에 적용하여 weight function을 구하는 방법론이다. 하지만, geodesic distance 기반의 MDS를 통해 얻어진 weight function은 positive definite 조건을 위반하기 때문에, 이를 바로 kernel function으로 간주하기에는 많은 어려움이 따른다. 이를 위해서 constant shifting이라는 방법이 제안되었다. 즉, 각 거리에 대해 특정한 상수를 더함으로써 positive definite 조건을 만족시키겠다는 것인데, 매우 흥미로운 부분이라고 생각된다. 이러한 문제뿐만 아니라, ISOMAP-based kernel은 노이즈에 매우 취약하다는 한계점을 가지고 있는데, 이는 비선형의 군집을 갖는 데이터에 대해서 좋지 못한 성능을 보여주게 된다. 일반적으로 최근 많이 생성되고 있는 데이터는 비선형 패턴의 군집이 많으며, 이러한 비선형 군집 간 노이즈가 상당히 많이 포함되어 있는 경우가 많은데, 이러한 데이터에 대해 보다 우수한 성능을 보일 수 있는 kernel function을 제안하기 위해서 본 연구자는 density-based geodesic 기반의 kernel을 제안하였다. Density-based geodesic distance는 각 관측치들의 밀도를 반영한 geodesic distance로써, 비선형 패턴의 데이터에 대해서 잘 적용될 수 있을 뿐만 아니라, 노이즈가 다수 포함된 데이터에 대해서도 상당히 좋을 성능을 보이는 거리척도이다. 이를 활용하여 kernel function을 도출한다면 복잡한 형태의 데이터에 대해서도 우수한 성능을 보일 수 있을 뿐만 아니라, 노이즈에 대해서도 강건한 성능을 보일 수 있을 것이라고 기대해볼 수 있다. 실제 시뮬레이션 데이터에 대해 kernel fucntion을 적용해본 결과, 우수한 성능을 보임을 알 수 있었다. 향후에는 보다 다양한 시나리오에 대해서도 제안하는 kernel function을 적용해볼 것이며, 실제 데이터에 대해서도 적용해봄으로써 성능을 확인해볼 계획이다. 이번 세미나에서 좋은 의견을 남겨준 연구원들에게 감사의 말을 전하고 싶다.

 

청취자 Summary


이상민

금일 세미나는 비선형적 구조 특성을 가진 데이터에 대해 선형 분리가 가능하게 만들고자 VC theory에 따라 고차원 투영시키는 '커널'에 대해 다루었다. 널리 쓰이고 있는 RBF, poly., laplacian 등 대다수의 커널들은 관측치 간 유클리디안 거리나 상관 거리에 기반하기 때문에, 데이터의 local structure를 충분히 반영하지 못하는 단점이 있다. 금일 추가로 소개한 ISOMAP 기반의 커널은 이러한 문제를 해결하고자 geodesic 거리를 활용하므로 manifold를 보다 잘 보존하며 고차원 이동이 가능하다. 유재홍 연구원이 추가로 제안한 알고리즘은, 관측치들의 밀도를 추가로 고려하기 때문에 ISOMAP 기반 커널보다 outlier나 overlapped data point에 대해 보다 강건하게 동작하도록 만들었다. SVM 커널로 유재홍 연구원이 제안한 커널을 기반으로 분류 정확도를 올릴 수 있다면 획기적인 연구 성과가 되지 않을까 싶다. 새로운 연구분야에 대해 소개해준 재홍이에게 감사인사를 전하며, 더욱 많은 연구적 성과를 올릴 수 있기를 바란다.


정영재

재홍이의 "Overview of kernel function"이란 제목의 세미나를 들었다. Kernel function은 linear한 분리만 가능한 방법이 Nonlinear한 분리까지 가능하게 하기위하여 사용하는 방법이다. Kernel function은 내가 정의하기로 기존 feature의 조합으로 형성된 새로운 변수를 추가하는 것으로, radial kernel, polynomial kernel 등 다양한 조합방식이 효과가 있음이 연구되어져있다. 본 세미나에서는 이러한 kernel의 장점, 즉 nonlinear한 분리가 가능하게 하는 장점을 기존의 방법에 어떻게 접목시킬지에 대한 소개가 이루어졌다. 이번 세미나를 들으면서 kernel function에 대해 조금 더 이해할 수 있었고, 연구를 어떻게 진행하는지 볼 수 있다는 점에서 매우 흥미로웠다.


이한규

noise에 강건한 다른 kernel 방식에 대한 논의를 했다. 그동안 SVM을 사용하면서 특히 RBF 커널을 사용하면서 RBF 커널은 이론상으로 무제한으로 확장이 가능하기 때문에 다른 커널에 비해(물론 데이터에 따라 다르겠지만, 대체적으로..) 좋은 성능을 보인다는 논문을 여러차례 봤었고 실제로 사용결과 다른 커널에 비해 우수하다고 생각했다. 그러나 RBF 커널은 유클리디안 거리를 기반으로 사용하기 때문에 유클리디안 거리의 단점을 가지고 있다는 점은 이번 세미나를 통해 처음 생각해본것 같다. (어차피 3차원 이상의 고차원으로 데이터를 이동시키는 것 이므로 현대 데이터공간에서의 데이터가 고차원에서 어떤식으로 나타나는지는 알 수 없기 때문에 실제로 유클리디안 거리의 단점이 나타는지는 정확하게 모르겠다.) 본 세미나에서는 geodesic 거리를 기반으로 한 kernel을 가지고 함께 이야기를 나눴는데 geodesic 거리의 장점인 지역적 패턴을 반영 할 수 있다는 점은 (그 결과를 봐도..) 상당히 좋은 접근 법이라 생각한다. 오늘의 세미나의 주된 목적은 커널의 정의 및 군집화였으나, 실제로 분류문제에서 특히, 데이터 불균형 상황에서 과연 이를 어떻게 적용할 수 있을지 생각해보는 것도 좋을 것 같다. 


김영훈

오늘 세미나 시간은 다양한 Kernel Function 에 대해서 공부하고 기존에 알지 못했던 새로운 방법까지 공부할 수 있는 유익한 시간이었다. Kernel Mapping은 저차원에 있는 데이터를 고차원에 투영시켜서 저차원에서 지역적 비선형 패턴으로 인해 하기 힘들었던 분류나 예측, 군집화 알고리즘 적용을 원활하게 하는 방법이다. 이 방법으로 다양한 비선형 패턴에 적용하기 위해서는 무한대 차원까지 확장을 해야 하는 한계점이 있다. 그래서 일반적인 기계학습 방법들에서는 두 관측치 변수가 내적이 되는 경우에 Kernel Function 이라고 하는 방법을 이용해 변수 확장을 하지 않고 Kernel Mapping 효과를 보게 된다. 이 Kernel Function 에는 다양한 함수를 적용할 수 있지만 대표적으로 Gaussian, Laplacian, Polynomial 등의 함수들을 사용하게 된다. 오늘 세미나에서는 Geodesic Distance를 활용한 Kernel에 대해서 배울 수 있었다. 기존의 방법들이 Euclidean Distance 기반으로 계산되는 반면 이 방법은 Geodesic Distance 기반으로 계산이 된다. 하지만 이상치가 많은 상황에서는 KNN 그래프의 본질적인 특성으로 잘 작동이 되지 않는데, 발표자는 이 이상치에 강건한 Density based Geodesic Distance 를 기반으로 Kernel을 계산함으로서 기존의 한계점을 극복하였다. 오늘 세미나 시간에는 간단한 예제 결과를 볼 수 있었는데, 추가적인 가상 실험과 실제 데이터 실험이 더 진행된다면 더 좋은 연구로 발전할 수 있을 것 같다.


박성호

최근 이미지, 동영상 등의 등장에 따라 비선형 패턴을 나타내는 데이터에 대한 분석 필요성이 증가 하고 있다. 널리 사용되는 방법으로는 고차원 상 맵핑함수의 내적을 의미하는 커널함수을 활용하는 기술이다. 금일 세미나에서는 이러한 부분을 고려해서 커널함수에 대한 개념부터 비선형 패턴을 좀 더 적합 할 수 있는 커널함수 연구를 소개하였다. 커널함수는 내적 함수로서 유사도 간주 될 수 있고, 대표적 커널함수인 가우시안 Laplacian 커널은 Euclidean, Correlation 유사도를 기반으로 한다. 결과적으로 발표자는 커널함수가 유사도 또는 비유사도를 기반으로 구축되었다는 점에 착안해서, 기존의 유사도 대신 새로운 유사도를 이용해서 새로운 커널함수를 제안 할 수 있지 않을까 하는 가설을 가정하고 몇 가지 연구들을 소개하였다. 특히, 비선형 패턴을 잘 반영 할 수 있는 유사도를 이용해서 커널함수을 만들면, 비선형 패턴을 좀 더 효과적으로 반영하는 커널함수가 될 수 있다라는 가정을 세웠다. 매우 흥미로운 가설인데, 수리적인 검증이 쉽지 않기 때문에 다양한 비교분석 실험이 진행되면 좋을 것 같고 앞으로의 연구결과가 기대된다.


박영준

금일 세미나는 재홍이가 커널트릭 및 커널함수의 이론적인 내용과 함께 새롭게 제안하는 커널함수에 대해 설명하는 것으로 진행했다. 가상의 고차원 공간에서의 내적을 대신하는 커널함수는 관측치의 유사도 혹은 거리로 재해석 할 수 있다. 따라서 일반적인 거리측도가 갖는 한계점인 지역적 특성을 반영하기 힘들다는 점이 커널함수가 태생적으로 동일한 문제점이 존재할 수 있다. 이에 따라 지역적 패턴을 반영할 수 있는 ISOMAP의 특성을 이용한 커널함수에 관한 연구결과가 있다. 재홍이는 이 연구의 프레임 위에 이전에 제안하였던 노이즈에 로버스트한 거리측도를 이용하여 새로운 커널함수를 제안하였다. 실험결과는 제안하는 기법이 우수함을 보이고 있다. 하지만 군집화라는 관점하에 커널함수를 사용하는것이 과연 필요한 부분인지 의문이 든다. 다만 의미가 있으려면 커널에 적용했을 때의 이점을 설명할 수 있고 수학적인 타당성을 입증할 수 있다면 좋은 연구가 될 것 같다.

 

박찬희

커널은 비선형 패턴을 갖는 데이터를 고차원으로 사영시켜 분류 또는 군집화를 더 용이하게 할 수 있는 기법이다. 저차원 데이터는 feature mapping function을 통해 고차원공간으로 사영된다. Feature mapping function의 내적을 이용해 커널함수를 생성할 수 있고 이를 통해 계산비용을 줄일 수 있다. 커널함수가 Mercer’s theorem을 만족한다면 커널트릭을 이용해 정확한 feature mapping function이 없어도 커널함수를 이용해 데이터를 고차원으로 사영시킬 수 있다. Geodesic 거리는 neighborhood graph를 이용하여 데이터의 지역적 패턴을 반영할 수 있다. 발표자는 geodesic 거리를 관측치의 밀도 값으로 나누어 밀도가 높은 부분들이 서로 더 가까워지도록 만들었다. 이와 같은 weighted geodesic 거리를 기반으로 kernel PCA 적용 시, 기존 geodesic 거리를 이용했을 때 보다 지역적 패턴을 더 잘 구분하는 것을 그림으로 볼 수 있었다. 발표자가 제안한 weighted geodesic 거리는 군집화, 분류 등 여러 머신러닝 분야에 광범위하게 적용될 수 있을 것으로 생각된다.


손지은

ISOMAP-based kernel은 geodesic distance를 기반으로 하지만 다른 클러스터 간의 노이즈로 작용할 수 있는 관측치가 존재 할 경우, geodesic distance의 본래 로컬적 패턴을 반영하고자 하는 의도가 왜곡될 수 있다. 제안하는 kernel 알고리즘은 shortest path를 계산하는 geodesic distances에 추가적으로 밀도의 개념을 반영하여 밀도가 높은 관측치 일수록 모여들어 명확한 클러스터로 분리될 수 있게끔 하였다. 실험이 더 이루어져야 하는 부분이 많이 있었지만 대체적으로 군집간 간격이 극명하게 나타나는 점, 그리고 선형 알고리즘으로 분리가 잘 되게끔 나뉘어 진 점 등 다양한 장점과 함께 활용가능한 분야가 많을 것으로 예상된다. 현재 2차원 데이터로만 실험하였는데, 고차원 데이터 및 실제데이터를 통한 실험과 kernel을 사용하는 기존의 알고리즘을 모두 적용해 특징을 파악하는것이 좋겠다. 


이슬기

기존에 kernel function을 이용한 방법론들에 대해서 실제 사용도 해보고 많이 접했었지만, 이번 세미나에서 가장 정확하게 kernel trick을 이해할 수 있었다. 새로운 kernel function을 제안하였는데, 기존의 kernel function이 지역적인 패턴을 완전히 반영하기 어렵다는 것에서 출발하기 보다는 ISOMAP kernel function의 한계점을 보안하는 것에서부터 출발하는 것이 더 논리적인 전개에서 좋을 것 같다. 조금 더 제안 방법의 특징과 장단점을 찾기 위해서는 다양한 실험이 필요하다 생각된다. 매번 재홍오빠의 세미나에서 느끼지만, 내부 세미나에서도 항상 꼼꼼하고 정성스럽게 발표자료를 만든다. 이 부분은 나를 포함하여 연구실인원 모두가 본받아야 할 부분이라 생각한다.


곽민구

금일 세미나는 기계 학습 알고리즘에서 널리 사용되고 있는 Kernel Function에 대한 전반적인 내용과 한계점, 이를 보완하기 위해 나왔던 ISOMAP-based kernel 등과 더불어 유재홍 연구원이 제안하는 Kernel Function에 대한 소개와 토론으로 진행되었다. Kernel Function은 K-means, PCA, SVM 등 현재 기계학습 분야에서 널리 사용되고 있는 알고리즘의 토대가 되는 매우 중요한 요소이다. Mercer's Condition을 만족하는 Kernel은 mapping function을 알지 못하더라도 기존 데이터를 고차원으로 맵핑시킨 후 다시 data space로 가져올 수 있는 특별한 기능을 가지고 있다. 원래 데이터 공간에서 기능을 제대로 발휘하지 못했던 알고리즘들이 kernel을 이용하여 더욱 높은 퍼포먼스를 보여주는 경우가 많다. 하지만 세미나에서 다루어졌듯이 대부분의 kernel은 similarity의 속성을 가지고 있으며 이는 local pattern을 반영하기 힘들다는 단점이 있다. 이런 단점을 해결하기 위해 ISOMAP-based kernel이 나왔으나 이는 noise에 민감하다는 점이 아직 해결되지 않았다. 이를 해결하기 위해 유재홍 연구원이 제안한 방법은 밀도를 고려한 density-based Geodesic 거리를 활용한 kernel이다. 이 kernel을 이용한 PCA를 적용하였을 때 데이터들이 선형으로 분류될 수 있을만큼 그룹별로 뭉치는 것을 확인할 수 있었다. 고차원 데이터에 대해서 PCA를 사용하고 분류 혹은 군집화를 진행하였을 때 performance measure를 수치로 보여준다면 제안한 kernel의 성능을 더 효과적으로 보여줄 수 있을 것이라고 생각한다.


강성현

Kernel Function은 높은 차원으로 맵핑을 통해 저차원에서 구분하기 힘든 데이터를 구분할 수 있도록 돕는 방법 중 하나이다. 일반적으로 SVM과 같은 선형 분리 모델의 한계점을 극복하는 수단으로 사용되어져 왔다. Polynomial, Gaussian, Hyperbolic Tangent Kernel 등이 대표적인 Kernel Function으로 알려져 있다. 그러나 오늘 소개된 Kernel은 Euclidean 거리를 사용하는 기존 Kernel Function과는 달리 Geodesic 거리를 사용하여 지역 정보를 반영하는 특징이 있다. 또한 노이즈에 민감한 단점을 해결하기 위해 데이터의 밀도를 반영한 점도 매우 돋보였다. 마지막으로 커널 트릭을 사용하기 위해 Mercer’s theorem을 충족시키는 과정을 보면 Geodesic 거리의 경우 Positive definite condition을 만족하지 않으나 constant shifting을 통해 이를 해결함으로써 일반 커널과 같이 쉽게 적용할 수 있도록 한 점도 주목할 만 하다. 마지막으로 간단히 실험한 결과를 보면 노이즈가 포함된 Spiral 형태의 다소 분류가 까다로운 데이터 형태에서도 좋은 성능을 보여서 향후 추가 실험의 결과를 기대하게 하였다. SVM과 같은 선형 알고리즘과 함께 사용했을 때 기존 함수 들과의 성능 비교 실험도 매우 흥미로울 것으로 예상된다.




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침