::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Conference Review  

2017 대한산업공학회_춘계학술대회 - 곽민구

작성자 곽민구 작성일 2017-05-02 오전 9:19:49
내용

 

 이번 대한산업공학회 춘계학술대회는 여수에서 진행 되었다. 대한산업공학회, 한국경영과학회, 한국시뮬레이션학회 3개 학회가 공동으로 주최한만큼 규모도 상당히 컸으며 발표 주제 또한 다양했다. 전체적으로 4차 산업혁명, 특히 스마트팩토리에 관한 내용들이 많았으며 이에 관한 특별세션 또한 상당히 많이 열리는 것을 확인할 수 있었다. 학문적인 연구에 대한 내용도 많았지만, 앞으로의 산업 방향에 대한 시사점과 토론 등에 대한 세션도 많다는 것이 인상적이었다. 이번 학술대회에서 발표한 내용과 청취한 내용에 대한 느낀 점을 정리하였다.
 

 

- 발표 후기
 

 이번 학회에서는 Ensemble Pruning with Optimization Problem Framework라는 제목으로 발표를 진행하였다. 앙상블의 성능을 향상시키기 위해서는 앙상블 모델을 구성하는 개별 모델들의 성능이 좋으며, 개별 모델 사이의 다양성이 확보되어야 한다는 것은 잘 알려져 있다. 하지만 실제로 앙상블 모델을 사용하면, 각 모델의 성능은 일정 수준 이상 좋게 나오지만 비슷한 모델이 너무 많이 생성이 되어 성능도 떨어지고 효율성도 낮아지는 현상이 발생하고는 한다. 이 문제를 해결하기 위해서 생성한 개별 모델 중 필요없는 것들을 제거하는 것을 ensemble pruning이라고 부르며, 최적화 방법론을 통하여 문제를 해결하고자 하는 연구에 대한 발표를 진행하였다. 제안한 방법론은 Markowitz Portfolio Optimization을 이용한 ensemble pruning 이었다. Ensemble Pruning은 분산투자의 리스크감소와 비슷한 컨셉을 가지고 있다. 전체 앙상블 모델의 분산을 최소화하기 위해 개별 모델들을 k개 선택하고, 선택한 모델들에 대해서 개별 가중치를 부여하는 과정을 Convex 형태로 formulation을 하여, 빠른 시간 내에 optimal solution을 찾을 수 있다는 것이 장점이다. UCI 데이터를 활용하여 다른 방법론들과 비교실험을 한 결과 성능이 향상된 것을 확인할 수 있었다. 앞으로 모델을 발전시키기 위한 연구 방향으로는 1. 개별 모델의 정확도와 다양성에 대한 trade-off parameter를 제거하는 formulation을 구성하는 것 2. pairwise가 아닌 joint diversity를 측정하여 여러 개의 개별 모델들 사이의 다양성을 한번에 고려하는 방법 등으로 생각하고 있다. 

- 청취 후기
 

1. Combinatorial Optimization with Recurrent Neural Networks 


 
'Interface between Machine Learning and Optimization' 특별세션에서 같이 발표를 진행한 현구의 발표였다. 그룹 세미나에서도 몇 번 접했던 내용이지만 해결하고자 하는 문제의 중요성과 접근 방법이 인상 깊어 정리를 하려고 한다. 조합최적화 문제는 현실 문제를 해결하는데 있어서 빼놓을 수 없는 중요한 이슈이지만, 그만큼 제한된 시간 내에 좋은 해를 찾는 것이 매우 힘든 문제이기도 하다. 최근 neural networks의 발전에 힘입어 이와 같은 유형의 문제들을 최적화 형식이 아닌, Learning 형식으로 풀고자 하는 시도가 시작되고 있다. 모델을 학습시키기는 어렵지만, 적합한 모델을 만들면 그 이후에 해를 찾아내는데 있어서는 기존의 방법들보다 월등하게 좋은 성능을 낼 수 있다는 것이 가장 큰 장점이다. 발표된 연구에서는 Traveling Salesman Problem (TSP) 문제를 해결하기 위해 제안되었던 pointer networks의 단점을 보완한 알고리즘을 제안하였다. 기존 Pointer Networks의 학습 방법과 구조에 대해 자세히 분석을 한 이후에 몇 가지 한계점과 문제점을 집어준 것이 발표에서 매우 인상적인 부분이었다. 그 중에서 cross-entropy로 학습할 경우 좌표 사이의 일치여부만 판단하게 되고 실제 거리는 반영을 할 수 없다는 방법에 착안하여 gradient를 수정한 방법론을 제안하였다. 실험 결과를 보았을 때 기존의 학습 방법보다 해를 매우 빠르게 수렴시키는 것을 확인할 수 있었다.

 

2. Representation Learning based Categorical Imputation  

 

 고차원 데이터에서 범주형 변수는 one-hot encoding을 사용하여 표현하는 것이 일반적이지만, 이는 데이터의 차원을 지나치게 크게 만든다. 이를 해결하기 위해 발표한 연구에서는 word2vec 알고리즘 중 skip-gram을 사용하여 데이터를 embedding space에 표현하였으며 이를 활용하여 누락된 범주형 변수의 값을 예측하는 것이 주된 목적이었다. 다른 방법들과 비교해서 해당 관측치의 레이블을 알지 못하는 경우에도 imputation이 가능하다는 장점이 있었다. 하지만 사용된 알고리즘에 대한 자세한 설명을 하지 않고, 접근 및 적용 방법에 대해서만 설명을 해서 중간에 어떤 방식으로 구현을 했는지 궁금한 점들도 생겼다. 범주형 변수 뿐만이 아닌, 연속형 변수에 대해서도 예측이 가능하다면 더 좋은 성능을 낼 수 있을 것이라고 생각하지만, 이를 위해서는 모델의 컨셉 자체를 바꾸어야 할 것 같다.




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침