::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Conference Review  

2017 대한산업공학회_춘계학술대회 - 강현구

작성자 강현구 작성일 2017-05-01 오후 7:53:36
내용

발표후기

 

제목: Combinatorial Optimization with Recurrent Neural Networks

 

이번 대한산업공학회 춘계학술대회에서는 전통적인 조합최적화 문제 중 Traveling Salesman Problem (TSP)을​ 최근 많이 연구되고 있는 딥러닝 알고리즘 중 하나인 recurrent neural network (RNN)을 이용하여 풀어내는 기법에 대한 연구 내용을 발표했다. RNN의 구조적인 특성을 살려 TSP의 해를 도출하는 기존 연구를 전통적인 수리최적화 관점에서 바라보면서 알고리즘의 구조와 성능을 개선하는 것이 주된 내용이다. 'Interface between Machine Learning and Optimization'이라는 이름으로 열린 특별세션에서 발표를 하게 되었고, 기대 이상으로 기계학습과 최적화 두 분야에서 많은 분들이 참석해주셨다. 그만큼 산업공학을 전공하는 많은 대학원생들도 나와 마찬가지로 컴퓨터공학의 산물인 딥러닝과 산업공학의 적절한 접점을 찾기 위해 많은 고민을 하고 있는 듯 하며, 시작한 지 3개월이 조금 넘은 본 연구는 두 분야의 극간을 좁히는 여러 연구 중 하나가 될 수 있다고 생각한다.​

 

질문 1. TSP를 딥러닝 기법으로 풀어냈을 때 어떤 장점이 있는지 모르겠다.

답변: TSP는 NP-Hard한 문제이기 때문에, 문제의 사이즈 혹은 도시의 개수가 증가하게 되면 전통적인 수리최적화 기법만으로는 합리적인 시간 안에 도출해내기 어렵다. 그렇기 때문에 최적에 근사하는 유사최적해를 구하는 많은 휴리스틱 기법들이 연구되었기도 하다. 큰 개념에선 딥러닝을 이용한 접근방식도 휴리스틱의 한 종류이긴 하지만, 무시할 수 없는 가장 큰 차이점은 바로 학습 기반의 알고리즘이라는 사실이다. 비록 합당한 수준으로 학습이 되기까지 오랜 시간이 걸리지만, TSP를 풀도록 잘 학습이 완료된 딥러닝 모델은 최적해를 매우 빠른 시간 안에 도출해낼 수 있다.

 

질문 2. 도시의 개수에 관계 없이 동일한 모델을 사용하여 학습하는 말이 잘 이해되지 않는다.

RNN은 시간 혹은 순서 정보가 존재하는 데이터를 처리하기 위해 고안된 딥러닝 알고리즘이다. 현재의 데이터에 대한 출력값을 도출하기 위해 과거 시점의 데이터에서 추출된 정보를 함께 활용한다. 이 때, 과거 정보를 현재 시점의 연산에 반영하기 위해 사용하는 파라미터는 모든 시간에서 동일하다. 따라서 5개의 도시로 구성된 TSP를 푸는데 학습된 모델은 10개, 20개, 나아가 수백 개의 도시로 구성된 TSP를 푸는데도 문제 없이 사용될 수 있다.

 

향후 연구에서 가장 먼저 해결해야 할 점으로 크게 두 가지를 꼽을 수 있다. 첫 째는 현재의 RNN 구조가 TSP 문제의 구조적 특성을 충분히 반영하지 못한다는 점이다. 각 도시들의 좌표만을 데이터로 입력할 뿐, TSP의 weighted graph가 갖는 특성은 충분히 알고리즘에 반영하고 있지 않다. 두 번째는 supervised learning 방식에 국한되어 있다는 점이다. 도시의 개수가 적은 경우 다양한 solver들을 사용하여 X(TSP 문제)에 대한 Y(최적해)를 구할 수 있지만, 도시의 개수가 많아지는 경우 Y값을 구할 수 없기 때문에 학습 자체가 불가능하다. Semisupervised learning이나 reinforcement learning의 관점에서 문제를 다시 바라볼 필요가 있다고 생각한다.

 

청취 후기

 

지난 2016년 추계학술대회와 비교해서 이번 춘계학술대회에서는 딥러닝 알고리즘을 활용한 연구들이 눈에 띄게 늘었다. 다양한 분야에 적용되는 사례들을 보면서 딥러닝의 인기를 실감할 수 있었으나, 한편으로는 연구의 유행에 따라가기 급급하여 알고리즘이 문제 상황에 적합하지 않음에도 불구하고 막무가내식으로 우겨넣는 것이 안타깝기도 했다.

 

1. 딥러닝 기법을 활용한 반도체 웨이퍼 맵의 혼합 불량패턴 분류

이 연구는 CNN의 특성을 잘 살린 연구라고 생각한다. CNN은 이미지 내 픽셀들의 지역적 특성을 반영하는 알고리즘인데, Radon transformation을 활용하여 반도체 웨이퍼 맵을 이미지화하여 불량패턴 분류의 성능을 높였다. CNN 구조로는 2012년 발표된 AlexNet의 구조를 그대로 사용하였는데, 더 많은 히든 레이어를 가지며 높은 성능을 내는 최신의 CNN 알고리즘들을 사용한다면 더 좋은 결과를 얻을 수 있을 것이라고 생각한다. 딥러닝을 활용한 적절한 사례 중 하나가 아니였나 싶다.

 

2. Representation Learning based Categorical Imputation

Word2Vec 알고리즘 중 하나인 Skip-gram 모델을 사용하여 고차원 데이터에서 누락된 범주형 변수의 값을 예측하는 내용이였다. 개인적으로 이 연구의 접근 방식과 결과에 대해서는 회의적이다. 알고리즘의 중요한 요소들에 대해 많은 부분을 생략한 본 발표를 들으면서 가장 먼저 든 생각은 자연어처리 분야에서 사용되는 Skip-gram 모델의 컨셉이 수치형 데이터는 적합하지 않다는 것이다. Skip-gram 모델은 ​고정된 vocabulary size를 사용하여 단어를 예측하는 반면, 수치형 데이터는 고정된 vocabulary size가 없다. 이러한 점에서 본 발표의 연구도 연속형 변수가 아닌 범주형 변수만 예측하지 않았나 싶다. 접근 방식은 참신하지만, 알고리즘과 데이터에 대한 개별적 이해가 충분하지 않은 상태에서 진행된 연구이기 때문에 그 성능 또한 기존 연구들에 비해 뒤쳐지는 것이라고 생각한다. 문제상황이 다른 상황에서 한 쪽에서 사용되는 알고리즘을 다른 한 쪽에 가져와서 적용할 때 가장 흔히 발생하는 문제인 것 같다.​ 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침