::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Online Random Forest (발표자: 강성현)

작성자 박찬희 작성일 2016-08-10 오후 7:00:57
내용

발표자 Summary

 

강성현

최근 컴퓨터 비전 관련 연구의 무게중심이 딥러닝으로 이동한 것은 분명한 사실이지만, 이미지과 같이 초고차원의 데이터 수집이 아닌 경우에 굳이 딥러닝을 사용하는 것은 사용성이나 해석 측면에서 비효율적일 수 있다. 제조산업에서도 마찬가지이다. IoT기술로 인해 데이터량은 급증하는 상황에서도 비교적 적정 Feature를 포함한 데이터 수집이 일반적이며, 카메라, 외관검사, LCD 패털 검사 등을 제외하면 딥러닝이 꼭 필요한 경우는 상당히 제한적이다. 따라서 금일 세미나에서는 비교적 일반적인 데이터 스트리밍이 지속되는 IoT 환경에서 유용하게 사용할 수 있는 Online Random Forest(ORF) 알고리즘에 대해 소개하였다. ORF은 모델링이 완료된 이후 새로운 입력 데이터를 기존 모델에 반영함으로써 데이터의 변화 상황에서도 점진적으로 적응할 수 있도록 고안된 Tree 기반 알고리즘이다. ORF는 지속적인 모델 갱신을 위해 크게 Online bagging, Updating trees, Discard trees의 과정을 거친다. 첫번째 Online Bagging에서는 포아송 분포를 활용하여 새로 도착한 데이터의 리샘플링 횟수를 정하여 새로운 데이터셋을 구성한다. Updating trees 과정에서는 특정 Leaf node에 일정 수준 데이터가 추가된 경우 엔트로피 등을 기준으로 재분기하여 새로운 데이터의 특성을 반영하도록 한다. 마지막으로 Discard trees 과정에서는 개별 트리의 Out-of-bag Error를 모니터링하여 Test 정확도가 크게 회손된 경우 해당 Tree를 새로 구축한다. 이로써 중요 Feature가 변화하는 중대한 데이터 변화 상황에서도 모델이 적응할 수 있도록 돕는다. ORF는 기존 RF 알고리즘의 장점인 해석력(변수 중요도 산출 등), Mixed Data 적용 용이성, 모델의 강건성 등은 그대로 개승하면서도 Online 학습을 통해 데이터 변화 상황에서도 스스로 적응할 수 있는 장점이 있다. 따라서 소개한 논문에서 응용한 비전 인식, Tracking 외 Time varying 등이 우려되는 제조 공정에서도 유용하게 사용될 수 있을 것으로 생각된다.

 

청취자 Summary

 

손지은

Random Forest의 Family 알고리즘인 Online Random Forest은 새로운 데이터가 추가되는 환경에서 모델을 새롭게 학습하는 것이 아니라 기존 모델에 추가되는 데이터를 반영하여 업데이트 해 나아가는 방식이다. 크게 Bagging 하는 방식과 언제 어떻게 모델을 업데이트 해야할 것인가 라는 두가지 이슈사항이 있다. 업데이팅 포인트를 찾고 Discard와 새롭게 트리를 확장하는것이 기본적인 아이디어였으며, 특히 추가적으로 설명된 알고리즘 Mondrian tree 가 매우 흥미로웠다. Split 을 끝까지 확장하지 않고 관측치가 위치한 부분까지만 Cover하려는 컨셉이 매우 신선하였고, 이에따라 트리 확장 방향이 위로도 가능하는 것이 매우 큰 강점인것 같다. 보통 억지로 데이터의 Range를 커버하려는 듯한 기존의 의사결정나무의 단점이 보완되기도 하고, Online 측면에서도 ORF와 비슷한 성능을 가지면서도 계산시간이 짧다는 것을 실험을 통해 증명하였다.

 

현구

오늘은 random forest 알고리즘을 online 환경에서 학습할 수 있도록 변형한 online random forest를 주제로 진행되었다. Online 학습 환경이란 데이터가 정적으로 존재하지 않고, 지속적으로 데이터가 피드되는 환경을 말한다. 모델의 훈련에 사용할 수 있는 데이터가 늘어날 때 모델을 처음부터 다시 훈련하려면 시간이 많이 소요되는데, online 계열의 기법을 사용하면 그런 수고를 덜 수 있다. 오늘 소개된 논문에서 제안한 방식들은 조금 복잡하며, 성능이 일반적인 random forest에 비해 조금 떨어지는 것을 확인할 수 있었다. 세미나 후반에 소개된 Mondrian tree는 기존의 decision tree 기법을 변형한 형태였는데, 발상이 간단하면서도 그 성능은 기존 이상의 효과를 보여주는 것 같다. Mondrian tree 계열의 알고리즘들을 한 번쯤 공부해보면 좋을 것 같다.

 

박성호

최근 IoT(internet of thing)라는 개념이 주목 받고 있는데 이는 앞으로 사회 및 모든 시스템은 인터넷으로 연결되어 실시간으로 데이터가 공유되는 시대이기 떄문이다. 즉, 실시간으로 수 많은 데이터가 생겨나고 이에 대한 데이터 분석이 매우 중요해지는 시대일 것이다. 금일 세미나는 실시간으로 전송되는 데이터를 효과적으로 모델링하는 Incremental learning 연구 중 Random forest 알고리즘 계열에 대한 연구들을 소개하였다. Random forest 알고리즘은 bootstrap 데이터 셋, 의사결정 룰 셋, 예측에러 개념이 잘 혼합되어 모델링이 구성되는데, Incremental Random forest 연구는 이들 3가지 요소를 데이터가 누적됨에 따라 어떻게 효과적으로 업데이트 시킬지 다루는 학문이다. 한편, 강성현 연구원은 전통적인 Incremental Random forest 연구부터 최신 연구까지 소개하면서 Incremental learning의 어떠한 개념들 변화되고 발전되고 있는지 쉽게 파악 할 수 있었다. 앞으로 빅데이터 시대에 주목 받을 수 밖에 없는 연구이기에 향후 연구가 주목된다. 

 

이슬기

오늘 세미나에서는 랜덤포레스트를 online learning으로 수정한 연구에 대해 다루었다. online learning은 분야에 따라 Incremental learning이라고도 하는데, 실시간으로 데이터가 추가될 때 적절하게 모델을 업데이트 하는 알고리즘들이다. SVM의 경우 서포트벡터만 업데이트 하면 되기 때문에 online learning으로 많이 확장되었었는데, 의사결정나무류의 알고리즘도 online learning으로 적용할 수 있는 부분은 새롭게 알게 되었다. 트리 구조를 변경하는 아이디어가 중요한 것 같은데, 소개한 논문에서는 트리를 키우는 것에는 합리적이지만, 줄이 방식에 대한 근거는 조금 명확하지 않은 것 같다. 재미있는 연구를 소개해준 발표자에게 고마움을 전한다.

 

박찬희

Random forest는 다수의 decision tree를 결합하여 구축되는 앙상블 모델 중 하나로 파라미터 설정이 간편하여 쉽게 모델을 구축할 수 있다는 장점이 있다. 또한 고차원 데이터에 적용 시 높은 성능을 보여주고 있어 이미지 또는 스펙트라 데이터 분석 널리 이용되어 왔다. Online random forest는 incremental learning을 random forest에 적용한 기법이다. 데이터가 스트리밍 형식으로 지속적으로 투입될 때 새로운 모델을 만드는 대신 기존 모델을 업데이트 하는 기법이라 볼 수 있다. 투입되는 데이터 크기가 점점 증가할 수 록 기존 offline 모델에 비로 online random forest가 높은 예측성능을 보여주는 것을 실험 결과를 통해 알 수 있었다. Online random forest 특히 시간변화에 민감한 모션 캡쳐와 같은 분야에 유용할 것으로 생각된다.

 

박영준

금일 세미나에서는 성현이형이 online random forest 알고리즘에 대해서 설명했다. Online learning 상황하에서 bagging 기법이 사용되는 random forest 모델을 구성하는데는 두 가지 문제가 있을 수 있다. 첫번째로는 새롭게 추가되는 데이터를 어떻게 모델에 반영할 것인지 두번째로는 모델의 앙상블을 어떻게 수행할 것인지 정해야 한다. 제안된 방법은 새롭게 추가된 데이터를 이용하여 트리 모델의 깊이를 늘리거나 기존의 앙상블을 구성하는 모델중 일부를 새롭게 다시 학습하는 것으로 첫번째 문제를 해결하고, 두번재 문에인 모델의 앙상블은 푸아송 분포를 이용하여 bagging sample를 구성하는것으로 문제 해결을 시도하였다. 제안하는 방법은 데이터가 새롭게 추가될때 마다 새롭게 모델을 구성하는 방법에 비해서는 성능이 저하되었지만 계산 속도면에서 강점이 있음을 강조했다. 추가로 세미나 말미에 간단하게 소개한 mondrian forest은 트리 모형의 학습이 뿌리 노드에서 시작하는 것이 아니라 중간부터 위아래로 모델이 확장하도록 구성하였는데 이러한 기법은 online learning에 대해서 상당한 강점이 있는것을 알 수 있었다.

 

곽민구

​금일 세미나는 Random Forest 알고리즘의 일종인 Online Random Forest에 관하여 진행되었다. Online이란 기존 학습 데이터에 대해서 모델링이 완료된 이후에 새로운 학습 데이터가 추가 되었을 때, 학습을 다시 처음부터 진행하는 것이 아니라 추가된 데이터를 모델에 덧붙여서 반영하는 식의 알고리즘을 의미한다. 이러한 학습 알고리즘이 가지는 장점은 streaming data, 즉 실시간으로 데이터가 지속적으로 업데이트 될 때 발휘된다. 새롭게 들어온 데이터를 k번 사용하여 각각의 나무를 업데이트 한다. 그 이후에 out-of-bag error를 계산하여 나무를 버릴지를 결정하는 스텝으로 알고리즘은 구성되어 있다. 단점으로는 알고리즘의 pseudo code를 보았을 때 너무 많은 랜덤성에 의존하는 경향이 있을 것 같다는 생각이 들었다. 세미나 마지막에 간략히 소개된 Mondrian Tree는 기존 Decision Tree처럼 decision boundary를 이용해 split할 때 선을 끝까지 긋는 것이 아니라, 각각의 subset을 구성하도록 만드는 알고리즘이다. 나무를 아래로 계속 split하는 것이 아니라, 거꾸로 parent node를 형성할 수 있다는 점이 매력적이었다.

 

이한규

실시간 데이터가 수집되는 online learning에 대한 내용을 다뤘다 그중에서도 random forest를 기반으로 한 online RF를 다뤘다. random forest는 앙상블을 기반으로 많은 경우에서 우수한 분류 성능을 보인다고 알려져 있다. 그러나 실시간으로 데이터가 수집되는 상황에서는 새로 유입되는 데이터를 어떻게 샘플링을 할지 그리고 새로 유입된 데이터에 따라 데이터 공간 분할을 어떻게 해야할지 등등 고려해야할 부분이 상당히 다양하다. 본 세미나에서 다룬 내용은 위의 고려할 점을 모두 고려한 알고리즘이다. 포아송 분포를 활용하여 새로 유입되는 데이터의 샘플링 여부를 고려하였으며, 기존의 의사결정나무 방법론과 유사하게 information gain을 활용하여 데이터 공간 분할 여부를 정의하였다. 마지막으로 데이터가 변화하는 상황에 맞춰 기존에 상대적으로 구축된지 오래된 모델을 버리고 새로 생성하는 부분까지 고려하였다. 직접 online 상황에서 데이터분석을 해보진 않았으나, random forest의 특성(mixture data.) 을 반영하여 실시간으로 모델을 구축할 수 있기 때문에 향후 실제 적용해 볼 수 있는 기회가 왔을때, 실제로 적용해본다면 좋을 것 같다.

 

정영재

성현 형의 "online Random Forest"라는 제목의 세미나를 들었다.Online Random Forest에서는 기존의 (Offline) Random Forest와 달리 모델을 전체 다시 학습시키지 않고, 점진적으로 모델을 수정한다. 움직이는 물체의 각 부분(몸, 팔 등)을 분류할 때 요긴하게 사용될 수 있다. 방식을 설명하자면 새로운 data가 들어오면 model을 update 해본다. 그후 기존모델보다 성능이 좋을 경우 update된 model을 사용한다. 예를들어 OOB error값이 기존 model 보다 미리 정해놓은 기준 이상 높으면 model을 update한다. 본 세미나에서는 룰을 만드는 방법인 트리기반 방법에서의 online 방식을 설명했는데 이런 룰 기반 방식을 사용하면, SVM등의 방법보다 상대적으로 update가 쉽기 때문인 것 같다. 본 세미나를 통해 online learning의 한 방법을 알아서 좋았다. 직접적으로 사용할 일은 아직 없지만 알아두면 필요할 때 요긴하게 사용할 수 있을 듯 싶다.

 

 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침