::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Boosted SVM and Rule Extraction (발표자: 곽민구)

작성자 박찬희 작성일 2016-08-24 오후 5:09:56
내용
발표자 Summary

 

 

곽민구


금일 세미나는 의료분야에서 데이터기반 의사결정을 내릴 때 생기는 두 가지 문제점인 불균형 문제와 규칙추출에 대하여 다룬 논문을 소개하였다. 환자가 수술을 받고 난 이후에도 다양한 문제들이 다시 일어나서 사망에 이르는 경우가 있는데, 이러한 경우를 탐지하기 위해 Boosted SVM을 사용하였다. 또한 현장에서 적용할 수 있는 규칙을 생성하기 위해 RIPPER 혹은 JRip라고 불리는 규칙생성 알고리즘을 적용했다.
실험 결과로 보았을 때 아직 의료 분야에서 의사결정을 내리는데 핵심적인 역할을 할 수 있다고 보기는 어렵다고 생각하지만, 불균형 문제를 해결하기 위한 알고리즘에서 한걸음 더 나아가 규칙을 생성하기 위한 시도를 했다는 것이 핵심적인 내용이라는 생각이다.
규칙 추출을 이용해 저자가 사용한 알고리즘은 Repeated Incremental Pruning to Produce Error Reduction (RIPPER)이다. 이는 우리가 보편적으로 사용하는 C5 혹은 의사결정 나무와 비슷한 구조를 갖는다. 먼저 AdaBoost SVM을 사용해 생성한 분류기를 사용해 전체 데이터의 class label을 새로 만든 후 규칙을 생성하였을 때, relabel을 하지 않은 경우보다 사망 환자의 경우 (minority class)를 훨씬 잘 설명할 수 있는 규칙집합을 생성하는 것을 볼 수 있었다. 
실험 결과로 보았을 때 아직 의료 분야에서 의사결정을 내리는데 핵심적인 역할을 할 수 있다고 보기는 어렵다고 생각하지만, 불균형 문제를 해결하기 위한 알고리즘에서 한걸음 더 나아가 규칙을 생성하기 위한 시도를 했다는 것이 핵심적인 내용이라는 생각이다.

 

 

 

청취자 Summary

 

 

강성현


금일 발표된 Boosted SVM SVM에서 각 관측치의 가중치를 조절하는 방법을 adaboost를 통해 반복적으로 갱신하는 방법을 취하는 점에서 기존 SVM과 차이가 있다. adaboot의 역할은 데이터의 불균형 상태에서 데이터가 부족한 클래스의 가중치를 적절히 조정함으로써 negative 클래스 중심으로 모델링되는 것을 방지한다. 따라서 불균형 상태에서도 상대적으로 높은 정확도(geometric mean 기준)을 확보할 수 있도록 하는 것이 금일 소개된 방법론의 주요 내용이다. 그러나 몇가지 아쉬운 점은 실험 결과를 불균형 상태에서 높은 성능을 보이는 여러 SVM과 성능을 비교하였는데, adaboost가 분류기의 성능에 큰 영향을 받는 만큼 다른 분류기 조합과의 성능에서도 우수할 수 있는지 알 수 없는 점이다. 또한 함께 소개된 rule extraction 부분에서도 다소 오래전 발표된 트리 분류 알고리즘인 RIPPER를 사용한 근거가 부족한 점도 아쉬웠다. 그러나 SVM adaboot를 적용한 모델을 제안한 점에서는 배울 점이 있었으며, 제안된 모델 만큼 근소하게 우수한 성능을 보인 under bagging에 대해서도 향후 궁금증을 유발한 발표였다.

 

 

손지은


오늘 세미나에서는 환자의 폐암 수술 후 생존 여부를 예측하고, 의사결정나무를 통해 해석하는 방법에 대해 소개하였다.예측문제에서 나타나는 불균형 문제와 의사결정을 위한 규칙 추출을 해결하기 위해 BoostedSVM-IB RIPPER 라는 방법론에 대해 설명하였는데, 의료데이터에서 나타나는 문제를 해결하고 실질적으로 해석이 꼭 필요한 의료상황을 반영하기 위한 프로세스였다. 그러나 2단계를 거쳐 규칙을 추출하는 과정에서 error rate를 너무 무시하는 경향이 있지는 않은가 하는 의문이 들었다. 선택된 변수 및 규칙에 대해 성능평가를 하기위해서는 어느정도 도메인지이 있는 분야여야만 가능할 것이다.

 

 

박영준


금일 세미나에서는 민구가 수술후 환자의 리스크 발생을 예측하는 모델에 대해 비교적 최근에 발표된 논문을 소개하였다. 소개한 논문에는 환자의 수술전 상태를 이용하여 수술후 발생하는 이상 유무를 예측할 수 있는 boosting기반의 SVM 모델을 구성하였다. 이때 환자의 이상유무는 이상이 상대적으로 적은 클래스 불균형 문제가 존재한다. 이를 해결하기 위해 boosting의 루틴안에서 수행하는 샘플링 단계에서 이상과 정상의 균형을 맞출수 있도록 하였다. 소개하는 연구에서 흥미로웠던 부분은 RIPPER라고 불리는 rule extraction 기법으로 앙상블과 같이 블랙박스 모델의 해석력을 보완할 수 있게 하는 것이었다. 본 연구에서는 트리 모형과 같이 if then 규칙을 통해 환자가 수술후 이상징후를 보일 수 있는 규칙에 대해 사람이 직관적으로 이해할 수 있게 하였다. 본 방법론은 추후 산학 프로젝트를 진행하면서 다양하게 활용될 수 있을 것으로 기대한다.

 

 

박성호


SVM 알고리즘은 많은 분야에서 뛰어난 성능을 보인고 있는 기계학습 알고리즘이다. 하지만 SVM 알고리즘은 일명 Black box모델로 결과해석이 어렵게 때문에, 과학적 분석의 신뢰성이 매우 중요한 의학 분야에서는 적용되는데 한계를 보여왔다. 또한, 의학 분야에서 생성되는 데이터는 클래스 불균형인 경우가 대다수 이기 때문에 전통적인 Supervised learning 방법들이 적용되는데 어려움이 많다. 본 세미나에서는 이 2가지 부분을 해결하기 위한 연구에 대해 소개하였다. 제안 연구는 2단계 구성되어 다음과 같이 진행된다. 먼저 Boost 기법을 활용해서 SVM에 특화된 불균형 해결 알고리즘을 제안하였다. SVM 학습 프로세스를 살펴보면 개별 관측치에 대한 중요도를 고려하는데, 개별 관측치의 중요도를 불균형과 연결시켰고 Boost기법을 활용하여 최적 중요도를 결정하였다. 다음으로 Boosted SVM 모델의 결과를 해석하기 위해 의사결정나무의 한 종류인 RIPPER를 수정해서 제안하였다. 의학 분야에서 주요하게 여겨지는 문제 2가지를 해결하기 위한 연구라는 점이 소개된 연구의 공헌도라 볼 수 있겠다. 다만, 제안방식의 타당성이 부분적으로 부족했다. 향후 이 논문을 소개한 연구들을 참조하여 의학 분야에서 기계학습 연구들이 어떻게 적용되는지 큰 그림을 좀 더 살펴 보면 좋을 것 같다.

 

 

정영재


민구의 "Predict post-operative life expectancy with Boosted SVM"이란 제목의 세미나를 들었다. 본 논문은 의학데이터의 생존 및 사망 예측에 관한 논문으로 알고리즘 개발논문이라기보다는 적용논문에 해당한다. 의학 시술 후 1년 뒤 환자의 사망 및 생존에 관한 예측을 하는 것이 목적이다. 의학 분야에서 주로 쓰이는 기존의 방법들은 Kaplan-Meier Survival Curve, Cox Hazards Regression 등이 있다. 본 논문에서는 이러한 방법들을 사용하지 않고, SVM을 사용하여 문제를 접근하였다. SVM을 사용하는 이유는 기존 방법들 보다 예측능력이 좋기 때문이다. 분석하고자하는 의료데이터의 특징은 data imbalance가 존재한다는 점이다. 따라서 저자는 data imbalance를 해결하기 위하여 Adaboost를 이용한 SVM을 사용하였다. 또 다른 데이터 분석 시 특징으로는 의학분야에서는 예측력을 높이는 것과 더불어 해석력이 중요하다는 것이다. 하지만 SVM은 설명력이 약한 모델에 속한다. 따라서 저자는 SVM의 예측값을 종속변수로 두고, 의사결정나무를 사용하여 Rule을 추출하였다. 본 세미나에서 재미있었던 부분은 설명력이 약한 모델을 통해 예측한 후, 의사결정나무를 토대로 설명력 부분을 보완했다는 점이다. 이러한 방법으로 의사결정나무를 형성한 후, 이 모델을 토대로 본데이터를 예측하였을 때에도 예측력이 크게 줄지 않았다. 따라서 이러한 방법을 향후 설명력 보완을 위해 사용하기 좋을 것으로 예상된다.

 

 

박찬희


Boosting은 예측모델의 bias-variance tradeoff 관점에서 bias에 줄이고자 제안된 앙상블 기법으로 분류기를 통해 오분류된 관측치에 높은 가중치를 주고 반복적으로 학습하여 분류정확도를 높일 수 있다. 본 논문에서는 환자의 생존율을 예측하기 위해 boosted SVM을 이용하였다. 실험결과, 기존 앙상블 기법에 비해 좋은 성능을 보여주었다. 또한 저자는 제안 모델의 결과 해석을 위해 RIPPER를 이용하여 규칙을 추출하였다. 생성된 규칙의 각각의 정확도는 50%를 넘지 못했지만 모델 해석의 측면으로 볼 때 가치가 있다고 생각된다.  

 

 

이한규


2가지의 방법을 다뤘다. 첫번째로 데이터 불균형 하에서 분류문제를 해결하기 위한 SVM SVM과 같은 blackbox 모델에서 해석을 위한 ripper 방법을 다뤘다. 그리고 이러한 방법을 활용하여 실제 의료데이터에 적용한 사례에 대해 토론하는 자리였다. 불균형 문제는 지금 연구하고 있는 부분으로 상당히 호기심 있게 들었다. adaboost 기법을 활용하여 iteration을 통해 misclassification이 발생한 관측치에 높은 cost를 부여하였다. 아마도 FSVM(fuzzy-svm)에 영향을 받은것으로 보인다. 일반적으로 FSVM이 데이터불균형을 해결하는데 좋은 성능을 보인다고 알려져 있기 때문에 이를 활용한것으로 생각된다. 흥미로웠던 부분은 위의 모델로 만들어진 분류 결과를 원 데이터 클래스를 대체하여 이를 통해 ripper 알고리즘을 적용하였다. ripper 알고리즘은 의사결정나무와 유사한 것으로 해석을 위한 룰을 생성하는것으로 보인다. 모델링을 통해 어느정도 합리적인 결과가 보장되야 한다는 가정이 있지만 일반적으로 blackbox 모델을 해석한다는 점에서 상당히 사용할 곳이 많은 방법이라 생각된다.  

 

 

이슬기


오늘 세미나 주제로 잡은 논문은 불균형 문제를 해결하면서도 해석이 가능하도록 2단계의 알고리즘을 사용한 방법이다. 일반적으로 black box 모델에 속하는 SVM은 예측력은 너무 좋지만 결과에 대한 해석이 어렵다는 점에서 모델의 결과를 의사, 엔지니어, 경영자들과 같이 전문지식을 갖은 사람을 납득시키기에는 어려움이 있다. 제안하는 논문에서는 불균형 문제를 해결할 수 있도록 관측치에 가중치를 주는 방식을 반복적으로 할 수 있는 SVM 모델을 제안하였으며, 이후 구축한 모델을 오라클이라고 가정한 후에 If-then 규칙을 생성하였다. 불균형 문제이면서도 결과에 대한 해석이 필요한 문제 상황인 의료데이터 기반의 질병 예측에 적용한 논리는 매우 합리적인 것 같다. 향후 의료데이터 분석의 기회가 온다면 조금 더 수정 보안하여 적용해보면 좋을 것 같다.

 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침