::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Deep Learning for Decision Making and Optimization (발표자: 김영훈)

작성자 유재홍 작성일 2016-12-23 오후 2:47:50
내용

발표자 Summary


김영훈

오늘 세미나에서 Deep Learning for Decision Making and Optimization 이란 주제로 세미나를 진행했다. Deep Learning을 사용할 경우 일반적으로 해결하기 어려운 Decision Making 문제를 효과적으로 해결할 수 있다. 대표적인 문제가 바로 Sequential Decision Making 이다. 이 문제는 시간에 따라서 지속적으로 미래의 보상을 최대로 하는 Action을 선택할 수 있도록 Agent를 학습시키는 일종의 Unsupervised Learning 방법론이다. 사람이 Agent 의 모든 Action 에 대해서 좋은 Action 인지 아닌지 가르쳐줄 수 없기 때문에 Agent 가 Interaction 을 하고 있는 환경에서 나오는 Reward 정보를 효과적으로 이용해서 좋은 Action 을 계속할 수 있도록 학습시키는 방법이다. 이 방법에는 여러 가지가 있는데, 오늘은 그 중에서 Policy-based method 의 일종인 Policy Gradient 방법에 대해서 집중적으로 소개했다. 그 다음으로는 전통적인 Optimization 문제를 Deep Learning 으로 해결할 수 있는 방법들에 대해서도 간략히 다루고 세미나를 마무리 지었다. 지금까지 Deep Learning 이라고 하면 많은 연구들이 사물과 상황 등에 대한 인지를 잘 하는 방식에 대해 집중되어 있었다. 그런데 앞으로는 인지한 내용을 바탕으로 효과적인 의사 결정을 내리는 방법에 대해서도 많은 연구가 이뤄지지 않을까 생각이 된다. 인지와 의사 결정 이 두 가지를 모두 할 수 있는 시스템이 진정한 의미의 인공지능이라고 할 수 있기 때문이다. 관련해서 지속적인 관심을 가지고 공부와 연구를 진행해 보고 싶다.

 

 

청취자 Summary


유재홍

금일 세미나는 Deep Learning for Decision Making and Optimization을 주제로 진행되었다. 기존에는 기계학습 알고리즘의 성능을 향상시키고 정합성을 향상시키기 위해 Optimization 기법을 활용하는 연구들이 활발하게 이루어졌지만, 기계학습 알고리즘에서 활용되는 기법들을 활용하여 Optimization 문제를 해결하는 연구들은 많이 이루어지지 않았다. 발표자는 기계학습 방법론을 Optimization 문제에 적용하는 분야에 대해 소개하였다. 대표적으로는 강화학습 분야에서 Policy gradient 기법을 활용하는 것을 들 수 있는데, 아타리게임에서 Agent를 구성하는데 Policy gradient 기법을 적용하여 기존의 Deep-Q learning 방법론에 비해서 상당한 성능의 향상을 보여주었다. 비디오게임과 같은 Sequential decision making 문제 뿐만 아니라, Static Decision making 문제에도 적용이 가능한데, pointer network라는 방법론을 적용하여 TSP나 Convex hull 탐색과 같은 NP-Complete 문제에도 충분히 좋은 결과를 보임을 보였다. 기존의 연구방향 (Optimization to Machine learning)가 가능하다는 것이 상당히 흥미로웠다. Optimization 문제의 Formulation을 잘하는 것이 매우 중요한 이슈라고 생각한다. 이러한 Formulation을 잘하기 위한 공부를 열심히 해야겠다는 생각이 들었다. 

 

곽민구

딥러닝을 이용한 의사결정 및 최적화에 관한 세미나를 들었다. 기계학습 문제를 formulation하고 풀기 위해 최적화 기법이 사용되어 왔다는 것은 많이 알려져있다. 오늘 소개된 내용은 거꾸로, 즉 기계학습 알고리즘을 활용하여 최적화문제를 푸는 과정에 대한 내용이었다. 강화학습을 이용한 Sequential Decision Making, 딥러닝을 이용한 Static Decision Making에 대한 내용이었다. 강화학습은 unsupervised learning의 일종으로 reward를 통한 action의 변화를 학습하는 과정이다. 일련의 데이터를 통한 결과에 따라 파라미터를 조정하는 reward를 주어 더 좋은 방향으로 모델을 나아가게 하는데, 이때 사용되는 policy gradient method 또한 소개가 되었다. 최근에 사용된 알고리즘으로는 asynchronous advantage Actor-Critic (A3C)이 있는데 여러 데이터셋을 사용해 각각의 결과를 도출한 다음 한번에 gradient를 업데이트하는 앙상블 개념이었다. 마지막으로 pointer network를 활용해서 풀 수 있는 문제의 종류와 사례, 성능에 대해 소개를 했다.

 

이한규

오늘 reinforcement learing에 대한 내용으로 그 중 policy-based RL에 대해 다뤘다. 간단히 생각해서 supervised learning에 일환으로 초기 액션을 통해 학습이 수행되고 이를 통해 얻은 reward를 기반으로 모델을 점차적으로 학습하게 되는 개념이다. 이중에서 특히 흥미있던 부분은 sequential decision making 부분으로, 예를들어 게임을 진행한다고 할때 하나의 reward를 얻기까지 다수의 sequential 한 이미지의 집합이 된다 그리고 이를 분석하기 위해서 개인적으로 시간적인 상관관계 있기 때문에 RNN을 사용하는 것 적합한 방법이라 생각되었다. 그러나 오늘 세미나에서 다룬 방법은 단순화하여 하나의 matrix를 구성하고 이를 통해 모델을 학습하였다. reinforcement learning (특히, sequential decision making)을 직접적으로 다른 분야에 적용하기 보다는 이와 유사한 컨셉으로 다른 분야에 적용해본다면 좋을것 같다는 생각이 들었다. 

 

이상민

금일은 최적화 문제에 대한 data-driven approach 적용 연구사례에 대해 리뷰를 하였다. 특히 sequential decision making에 reinforcement learning을 적용했던 사례가 인상 깊었다. 경로설정, 자원할당 같은 전통적인 최적화 연구문제에 대해 데이터 마이닝 기법을 활용한 적용사례를 폭넓게 찾아봤으면 좋겠다. 또한 최적화 문제에 특화된 기법 제안연구도 충분히 흥미로울 수 있을 것 같다. 개인적으로는, 근사 최적화를 추구하는 메타 휴리스틱 알고리즘에 기계학습 알고리즘을 합치는 연구분야를 보고 싶다. 이를 통해 근사 최적해의 질을 높이면서 시간복잡도를 유지할 수 있는 연구를 할 수 있으면 좋겠다.

 

박성호

금일 세미나는 Operation research 학문에서의 문제를 Machine learning 관점에서 해결하고자 하는 큰 개념을 소개하는 자리였다. 다양한 문제 중 중점적으로 다룬 것은 연속적 의사결정 문제를 Machine learning 관점에서 해결하는 강화학습에 대한 소개였다. 강화학습은 순차적으로 결정을 내려 최종 목표에 도달해야 하는 문제를 수학적으로 풀어내는 학습 방법이다. 강화학습 에이전트(agent)는 환경(environment)이 주는 상태(state)들에 대해 취할 수 있는 일련의 행동(action)들을 미래 포상(reward)를 최대화하는 방식으로 배워나간다. 강화학습을 구현하는 방법은 크게 가치, 정책 그리고 모델 기반의 접근이 있는데 오늘 세미나에서는 주로 정책 기반의 강화학습 기법을 소개하였다. 이외에 combinatorial optimization 문제들을 RNN으로 풀고 있는 연구들을 소개하였다. 지금까지 행해진 연구들의 흐름을 봤을 때, 행동에 대한 포상을 정의하는 방법에 따라 많은 의미 있는 연구들이 진행 될 수 있다고 생각되다. 앞으로는 다른 학문의 개념에서 아이디어를 도출하고 강화학습과 어떻게 융합하고 의미를 찾을지 고민해 보고자 한다.

 

손지은

Reinforcement Learning 은 일반적으로, Q learning, Model 기반, Policy gradients 로 나뉠 수 있는데 오늘 세미나는 Policy gradients 기법을 소개하는 시간이었다. Reinforcement learning 에는 State, Action, Reward 세개의 요소가 있다. State에서 행해지는 Action에 대해 Reward가 주어지고 Reward에 따라 Policy gradients 를 학습하는 것이다. 즉 Total reward를 최대화 시키는 방향으로 Update되며 학습모델은 Neural network를 사용한다. NN에서 Convolution layer를 추가한 것을 Deep reinforcement learning이라고 하는데 예상하기로는 이미지데이터와 같이 복잡한 데이터에 대해서는 확실히 우수한 성능을 나타낼 것으로 예상된다. 발표자는 Reinforcement learning에 이어 Static decision making에 대해 설명하였는데 개념적으로 Sequential decision making과 Static decision making에 차이를 이해하기가 좀 어려웠다. Reinforcement learning이 다양한 분야에서 활용되는 만큼 개인적으로 더 깊이 공부해야 할 가치가 있다고 판단하였다.


최우식

이번 세미나에서는 최적화와 기계학습 기법을 조합하여 sequantial 데이터나 일반적인 데이터 형태에서의 최적화 문제를 효율적으로 해결할 수 있는 방법에 대해 알 수 있었다. 예시로는 핑퐁 문제가 있었는데, 핑퐁의 경우 간략하게 상대방의 공을 받아내고 상대방이 받아내지 못하게끔 하는 게임이라 할 수 있다. 이 문제에서는 이기는 상황과 지는 상황을 나누어 각각의 상황에 따라 적절하게 학습을 하고, 문제 상황에 맞는 구조를 택하여 CPU로도 비교적 빠른 시간 안에 학습을 할 수 있도록 하는 것이 포인트이다. 세미나를 통해 느낀 바는 크게는 두 가지가 있었는데, 최적화와 기계학습을 잘 조합하려면 첫 번째는 현재의 상황을 최적화 기반으로 생각하고 이를 어떻게 기계학습으로 풀 수 있는지, 두 번째는 그 기계학습 문제를 어떻게 하면 상황에 맞게 효율적으로 풀 수 있는지에 대해 심도 있게 고찰해야겠다는 것이다. 최적화가 현실 상황에 맞는 적절한 모델링을 한다면 문제를 올바르게 풀 수 있는 장점이 있지만 모델링에 따른 해답을 찾는 방법은 매우 어려울 수 있다. 따라서 이를 기계학습 모델로 올바르게 변환하는 것 자체가 좋은 일이며, 이를 더 좋은 방법으로 업데이트하는 것 또한 의미있는 일이라 할 수 있다. 개인적으로도 적절한 문제 상황이 주어진다면 이번 내용을 참고로 하여 문제를 해결해야겠다고 생각하였다.

 

강성현

오늘 발표는 강화학습이 주제였지만 사실은 머신러닝에서 산업공학, 혹은 우리의 연구실이 어떻게 기여할 수 있을지에 대한 고민이 더 느껴진 자리였다. 딥러닝, 강화학습 등 최근 머신러닝이 사실 Computer Science의 주도하고 있음을 부인할 수 없기 때문일 것이다. 금일 발표자는 그 답을 Decision Making Optimization과 머신러닝의 결합에서 찾고자 하였다. 기존의 방법으로 풀기 어렵거나 시간이 많이 소요되는 최적화 문제를 딥러닝으로 접근해볼 수 있다는 것이다. 이는 머신러닝의 문제를 최적화식으로 재해석하는 기존 접근과는 반대의 방향이지만 학문의 깊이보다는 창의적인 접근으로도 가능하다는 점에서 의미있게 느껴졌다. 특히 Zalando의 사례가 인상깊었는데 TPS 처럼 전통적인 문제임에도 아직 최적화가 어려운 물류 및 배치의 문제에서 의미있는 결과를 얻을 수 있다면 다양한 분야에서 유용한 응용 사례로 평가 될 수 있을 것이다. 

 

도형록

금일 세미나는 기계학습, 특히 인공신경망 계열 알고리즘을 이용하여 최적화 문제를 푸는 접근 방식에 대해 진행되었다. 크게 두 가지 주제로 진행되었는데, 하나는 sequential decision making에 대한 문제, 다른 하나는 static decision making에 대한 문제였다. 최근 인공신경망을 기반으로 한 강화학습 연구들이 활발하게 진행되고 있는데, 세미나에서 소개된 모델은 그 중 policy gradient 기법이었다. 강화학습은 크게 value-based, policy-based, model-based로 구분될 수 있으며, 그 중 policy-based 접근 방식은 행동에 대한 value를 평가한 후 optimal policy를 계산하는 value-based 방식과는 달리, 직접 policy에 대한 reward를 계산하여 optimal policy를 구하는 방식이다. 인공신경망은 policy에 대한 future reward function을 approximate하는 데 쓰이며, 비디오 게임과 같이 이미지 프레임이 연속적으로 제공되는 문제에서 효과적으로 활용될 수 있다. 좀 더 흥미로운 주제는 static decision making에 인공신경망을 적용한 연구였다. 주어진 점들의 convex hull을 찾거나, delanaury triangle을 찾는 문제, 또는 traveling salesman problem과 같이 전통적인 combinatorial optimization 문제를 푸는 데 인공신경망을 사용한 사례이며, 이를 위해 pointer network를 사용하였다. Combinatorial optimization 문제를 data-driven 방식으로 해결하려는 시도가 흥미로웠으며 짧은 시간안에 큰 사이즈의 문제를 풀어야 하는 상황에 적용될 수 있을 것으로 보인다. 많은 combinatorial optimization 문제에 적용될 수 있을 만큼 flexible한지, 또 각 문제에 대해 충분히 좋은 데이터를 다량으로 생성할 수 있는 휴리스틱 방법론들이 잘 구축되어 있는지 등이 중요할 것 같다.


박찬희

강화학습은 unsupervised learning 중 하나로 학습 모델이 현재의 상태를 인식하여 선택가능한 행동들 중 보상을 최대화화 하는 행동을 선택하는 방법이다. 강화학습은 크게 value based, policy based, model based 기법으로 나눌 수 있으며 본세미나에서는 policy based (정책기반) 강화학습 기법에 대해 설명하였다. 인공신경망을 이용한 supervised learning에서는 알고 있는 답에 가까워 지도록 gradient를 조정할 수 있다. 반면 정책 기반 강화학습에서는 초기에 랜덤한 값으로 정책(확률)을 정하고 샘플링에 기반한 정책으로 행동을 결정한다. 그리고 행동에 따른 보상을 이용하여 정책망을 반복적으로 학습시킨다. 일반적으로 여러개의 행동조합을 통해 하나의 보상이 피드백된다. 따라서 어떤 시점에 어떤 행동이 최종 보상에 기여했는지 알기 쉽지 않다. 하지만 굉장히 많은 수의 학습을 통해 최종적으로 올바른 행동은 긍정적이 보상을 받게 된다. 정책망은 brute force 방식으로 답을 찾아간다고 할 수 있다. 따라서 사람이 추상적으로 이해하고 학습하는데 필요한 데이터양보다 훨씬 많은 양의 데이터를 필요로 한다. 보다 고도화된 인공지능 학습을 위해서는 사람과 같은 추상화 능력을 겸할 수 있는 학습 방법이 필요할 것으로 생각된다. 

 

이슬기

오늘 세미나는 기계학습 방법론을 통해 최적화 및 의사결정 문제를 푸는 방법에 대해 다루었다. 인공신경망을 이용하여 강화학습문제를 해결하는 것을 집중적으로 소개하였다. 강화학습은 AgentEnvironment와 상호작용하면서 정보를 학습할 수 있도록 하고 이를 통해, Reward를 기반으로 최적의 행동을 찾는 알고리즘이다. sequential decision making 문제로는 인공신경망을 기반으로 한 강화학습 연구 중 policy gradient 기법을 사용한 방식을 이야기 했고, static decision making 문제에서는 주어진 점들의 convex hull 또는 TSP(traveling salesman problem)과 같이 전통적인 combinatorial 최적화 문제를 인공신경망을 이용하여 풀 수 있다는 것을 소개하였다. 최적화 문제와 데이터마이닝 알고리즘의 융합의 실질적인 문제해결 능력에 대해 고민해 볼 수 있는 시간이었고, 향후 우리 연구실 연구원들이 많이 기여할 수 있는 연구 분야지 않을까 생각이 든다.




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침