::고려대학교 DMQA 연구실::

Lab. Activity

 

 

 

Lab. Activity>Seminar  

Biterm Topic Modeling (발표자: 손지은)

작성자 관리자 작성일 2016-11-08 오전 11:24:22
내용

발표자 Summary


손지은

트위터,페이스북,상품평,댓글,뉴스해드라인등과 같은 Short text 는 기존의 LDA기법을 통해 Topic modeling 을 하는것이 어렵다. LDA는 기본적으로 단어들의 동시출현 패턴을 통해 토픽과 단어의 분포를 추정하지만 Short text애서는 단어가 한번이상 출현하는 경우가 드물어 단어 발생 패턴을 파악하기 어렵기때문이다. 이런 문제점을 해결하기 위해 Biterm topic modeling 기법이 제안되었다. Biterm이란 Short text 내에서 두 단어의 조합을 뜻하며 조합에 있어 단어 순서는 고려하지 않는다. 두 단어를 조합하여 전체 Corpus에서 토픽과 단어의 분포를 추정하게 된다. 이러한 접근은, Sparsity problem 을 해결하고 두 단어의 조합을 바로 전체 Corpus에서 분포 추정하므로 계산 속도 및 메모리에서 기존 LDA보다 성능이 우수하다. 또한 기존의 Topic modeling의 성능평가 방법인 Perplexity는 확률 분포의 예측 정확도를 평가하는 것이지 실제로 Topic이 잘 나뉘었는지에 대한 평가는 아니기 때문에 논문의 저자는 Topic quality를 평가하기 위해 Coherence 평가방법을 통해 실험 성능을 비교하였다. 3개의 실제데이터를 통해 Topic modeling 기반의 Topic quality, Classification, Clustering 등 다양한 문제를 풀려고 노력하였고 제안하는 방법이 기존의 방법들보다 우수함을 입증하였다.


청취자 Summary


유재홍

금일 세미나는 Biterm topic modeling을 주제로 진행되었다. 기존의 Topic modeling 방법론들은 문서의 사이즈가 어느정도 큰 경우에는 우수한 성능을 보이지만, 트위터나 뉴스의 헤드라인, 온라인 쇼핑몰의 제품사용 후기와 같이 짧은 문서에서는 토픽을 적절하게 도출하지 못한다는 한계점을 가지고 있다. 특히, LDA와 같이 확률기반의 모델은 텍스트의 정보량이 어느정도 확보되어야 키워드들의 확률분포를 추정할 수 있기 때문에 길이가 짧은 문서에서는 적절하게 적용될 수 없다. 이러한 한계를 극복하기 위해서 Biterm topic modeling 기법이 제안되었다. 설비 조치이력과 같은 짧은 문서는 제조공정에서 많이 생성되는데, 이러한 기법을 적용한다면, 공정 엔지니어들의 공수를 효과적으로 절감할 수 있을 것이라고 생각된다.


이슬기

오늘 세미나에서는 biterm topic modeling을 다루었다. 원래 topic modeling 에서는 LDA 방식이 매우 유명하지만, 이 방식은 문서의 길이가 짧을 때는 topic의 단어가 많이 등장하지 않기 때문에 성능이 매우 떨어진다. 요즘 인터넷 상에 개시되는 글, 사진, 동영상 모두 매우 짧아지고 있는 것이 사실이다. 가볍게 사진을 올리고 해시태그로 내용을 표현하는 인스타그램이 뜨고 있고 요즘 티비시청 풍토의 경우에도 인터넷상의 스냅 동영상으로 본다고 한다. 이러한 상황에서 정형화된 긴 문서가 아니라 짧은 글들을 분석할 적절한 방법이 매우 필요한 것으로 보인다. biterm이라는 것을 만드는 것이 매우 간단해 보이지만, 아이디어 측면에서는 기발한 방법이라 생각이 든다.

 

이상민

금일 세미나는 SNS에서 흔히 작성되는 짧은 글(short text)을 대상으로한 topic modeling 방법을 소개하였다. 짧은 글들을 대상으로 기존 LDA를 적용 시에는 단어의 빈도가 작아서 word-topic-document의 확률적 연결관계를 탐색(파라미터 추정)하기에 부족할 수 있다. 해당 논문에서 제안한 방법은 biterm (2개의 word set)의 등장빈도를 기준으로 topic의 연결고리를 찾는 방식이다. 실험연구에 따라 성능개선 효과도 보였고, short text에는 유효한 방식으로 생각된다. 하지만 단어를 2개로 한정짓지 않고 Ngram과 같이 term count(단어 수)를 늘려가며 다양한 조합을 파악하는 것도 좋지 않을까 싶다. 좋은 연구사례를 소개해준 손지은 연구원에게 감사 인사를 보낸다.


이한규

기사를 분석한다고 했을때, 기사의 내용을 중점을 맞추게 된다. 그러나 일반적인 신문기사의 headline은 기사의 전체적인 방향과 더불어 어떠한 내용을 말하고자 하는지 명확히 들어난다. 이러한 headline을 분석할때 일반적인 토픽모델링 기법은 정보의 부족으로 인해 다양한 문제가 발생한다. LDA와 같은 경우, Dirichlet 분포를 추정하기 어려우며, 전통적인 TF-IDF로 만들어지는 matrix는 매우 sparse하게 나타나 원하는 결과를 도출하기 어렵게 된다.  이는 곧 해당 모델의 결과에 신뢰성에 대한 문제를 야기한다. 본 세미나에서 다룬 Biterm Topic Modeling (이하 BTM)은 이러한 문제를 해결하기 위한 방법이다. 토픽모델링 중 twitter와 신문의 head line등과 같이 짧은 문장을 대상으로 토픽모델링을 할 수 있는 방법으로 기저에 깔린 아이디어는 매우 간단하다. headline을 단순이 POS하여 파편화 시키는것이 아니라, biterm. 즉, 각 healine에서의 나올 수 있는 2단어의 모든 조합을 통해 데이터의 개체수를 확장하게 된다. 이후 기존의 LDA와 동일하게 Dirichlet 분포를 추정하게 되며 최종적으로 적절한 Topic으로 단어를 분류한다. 결과에서 보듯이 관측치가 증가함으로써, 기존의 LDA보다는 더 합리적인 결과가 도출 되는 것 같다. 각 토픽이 특징에 맞춰 잘 나눠진다는 가정하에 기사의 headline은 BTM으로 내용은 LDA로 분할하여 각각 분석한 후, 이를 합친다면 기사 또는 텍스트를 분석하는데 있어 유용하지 않을까 생각해 본다.

 

박성호

시간과 장소에 구애 받지 않고 짧은 시간에 문화를 스낵처럼 즐기는 것을 ‘스낵컬쳐(Snack Culture)’라고 부른다고 한다. 스낵컬처는 현대인들이 중요시 여기는 ‘짧은 시간(Fast)’과 ‘편의성(Easy)’이라는 요소에서부터 자연스럽게 나타나지 않았나 싶다. 글을 쓰고 정보를 공유하는 과정에서도 스낵컬처가 자리잡고 있다.스낵컬처에 의해 한 문서의 데이터의 사이즈가 대폭 줄어들고 있기 때문에 장문의 텍스트 정보를 기반으로 하고 있는 기존의 텍스트마이닝 방법들도 한계를 맞고 있다. 금주 세미나에서는 단문으로 구성된 텍스트 정보에서 효과적으로 LDA 프로세스를 구현 하는, 즉 단문에 내포되어 있는 저자의 의도를 파악하는 새로운 방법에 대한 연구를 소개하였다. 이러한 데이터의 추세는 텍스트뿐만 아니라 모든 관련 업종에서도 나타내는 현상으로, 앞으로의 데이터마이닝 연구들의 큰 방향성을 곰곰이 생각해 볼 수 있는 기회였다.


박영준

금일 세미나에서는 트위터, 기사 헤드라인 등 짧은 텍스트에 효과적으로 사용될 수 있는 biterm topic modeling에 대해 지은누나가 발표했다. 짧은 길이의 텍스트는 개별 문서가 짧은 길이의 단어 시퀀스로 표현되기 때문에 토픽모델링에 널리 사용되는 LDA (latent Dirichlet allocation) 등의 방법이 효과적이지 않다. LDA의 경우 추청해야할 파라미터가 많은데 설명력이 작은 짧은 텍스트를 이용할 경우 추정에 있어 sparsity problem이 발생하여 결과를 신뢰할 수 없게 된다. Biterm topic modeling에서는 개별 문서의 토픽 분포 추정을 포기하는 동시에 n-gram과 유사하게 동시에 등장하는 단어 조합을 개별 단어 대신 사용한다. 따라서 biterm topic modeling의 결과물은 대량의 짧은 텍스트로 부터 추출한 토픽-단어의 분포로 부터 추론할 수 있는 토픽이다. 이 경우 해당 문서가 어떤 토픽을 갖는지는 알 수 없기때문에 분명 한계가 있지만 얻고자 하는 정보가 오직 전체 문서의 토픽이라면 LDA의 대안으로 고려할 수 있겠다.


곽민구

금일 세미나는 Biterm Topic Modeling에 대해서 진행되었다. 토픽모델링은 1. 하나의 문서를 구성하고 있는 단어들에게 토픽을 할당하고 2. 해당 문서의 토픽 분포를 추정하는 텍스트마이닝 분야이다. LSI, PLSI, LDA 등 다양한 방법이 사용되며 시간의 속성을 고려한 dDTM 등의 방법론 또한 사용된다고 한다. 하지만 트위터 등의 SNS, Q&A, 뉴스의 헤드라인 등 글의 길이가 짧은 경우에는 일반적인 토픽모델링 방법론을 사용하는데 많은 어려움이 따른다. 이는 한 문서에 포함되는 단어의 수가 매우 적고 co-occurence가 생기는 경우가 드물기 때문에 토픽의 분포를 추정하는데 필용한 데이터가 부족하기 때문이다. 이를 세미나에서 참고한 논문에서는 data sparsity라고 표현하였다. 이를 해결하기 위해 Document Aggregation, Mixture of Unigrams 등의 방법을 사용하기도 하는데, 전자는 '페이스북의 한 유저가 쓴 글'처럼 여러 문서를 하나의 기준으로 합쳐 분석을 하는 방법이며 후자는 하나의 문서는 하나의 토픽을 갖는다는 전제를 가지고 분석을 하게 된다. 하지만 각각 휴리스틱에 의존하고 가정이 너무 strict하다는 단점을 가지고 있다. Biterm Topic Modeling은 하나의 문서에서 모든 단어를 사용하여 한 쌍을 구성하여 새로운 데이터셋을 구성한 후 일반적인 토픽모델링 파라미터 추정방법을 사용하여 아웃풋을 얻는다. Data Sparsity를 해결하기 위해 나온 아이디어는 좋았지만, 실험을 평가하는데 있어서 사용된 measure가 적합하지 않다는 의견이 많았다. 다른 모델들의 결과까지 같이 고려하는, 어떻게 보면 relative performance measure인데 BTM이 성능이 잘 나올 수 밖에 없는 방법이었다. 짧은 텍스트를 분석하는 것은 비단 토픽 모델링 뿐만이 아니라 다른 분야에서도 어려움이 많은데, 좋은 설명을 들을 수 있어 유익했다.


도형록

금일 세미나에서는 biterm topic modeling이라는 topic modeling 알고리즘에 대한 설명으로 진행되었다. Biterm topic modeling은 generative model인 latent Dirichlet allocation을 기반으로 만들어진 모델로, 뉴스 헤드라인, 트위터 또는 Q&A 등 짧은 글에 대한 topic modeling을 시행할 때 효과적으로 사용될 수 있다고 한다. Latent Dirichlet allocation의 경우, 한 문서 내에 다수의 토픽 분포하고, 각 토픽에 대해 단어가 분포하는 구조를 갖고 있으며, 문서 레벨에서 단어들이 동시에 출현하는 패턴을 학습하는 특징을 갖는다. 하지만 문서가 짧은 경우에는 문서 내에서 단어들이 동시에 출현하는 패턴을 효과적으로 학습할 수 없게 된다. Biterm topic modeling은 이런 문제를 해결하기 위하여 두 단어의 조합인 biterm을 도입하였다. Biterm을 이용하여 corpus를 구성할 경우, biterm 자체의 출현 빈도가 곧 biterm을 이루는 두 단어의 동시 출현 패턴을 의미하기 때문에 LDA에 비해서 short text에서 효과적으로 작동하게 된다. Generative model을 이용한 topic modeling은 최근 neural network 계열 방법론이 활발하게 연구되면서 약간 덜 연구되는 추세라고 알고 있었지만, hort text를 분석하기 위한 상황에서 기존 모델의 문제점을 해결하기 위해 biterm을 이용한 접근 방식은 상당히 흥미로웠다. 단순히 변수 하나를 보는 것이 아닌 변수의 조합을 본다는 아이디어는 다른 연구분야로 옮겨와서 사용할 수 있을 것 같다.

 

최우식

이번 세미나는 Biterm topic modeling이라는 주제로 진행되었으며, 이는 트위터나 댓글과 같은 짧은 텍스트를 어떻게하면 효과적으로 분석할 지에 대한 고민에서부터 시작된 내용이다. TF-IDF, 그리고 latent Dirichlet allocation과 같은 일반적인 텍스트마이닝 방법은 각각의 문서가 많은 문장을 가지고 있을 때 효과적이지만, 짧은 텍스트에서는 문장, 단어의 부족에 따라 특정 문서가 어떠한 의미를 담고 있는지를 알기가 매우 어렵다. Biterm topic modeling에서는 이를 해결하기 위해 문서 내에서 순서에 상관없는 단어 쌍을 형성하여 짧은 텍스트에서 되도록이면 많은 정보를 추출할 수 있도록 하였다. 기본적으로 문제 상황을 올바르게 해결하려 한 점에서는 인상 깊었으나, 해당 분야가 더욱 발전할 수 있는가에 대해서는 미지수이기에 개인적으로는 연구로서 좋은 주제라 생각되지는 않는다. 다만 실제 문제에서 적용이 필요한 상황이 있다면 이를 활용해보는 것이 좋을 것이라 생각하였다.

 

박찬희

Topic modeling이란 하나의 문서에서 정해진 수의 topic을 찾고 각 topic을 구성하고 있는 단어의 분포를 찾는 방법이다. 하나의 문서에 포함된 각 단어를 관측치로 보고 그것을 군집화하는방법이라고 볼 수 있겠다. Latent Dirichelt allocation (LDA)은 사용자가 정한 topic 수에 따라 단어를 대표적인 topic 모델링 기법이다.  LDA는 주로 문장의 길이와 수가 충분한 문서에 주로 적용되어 왔다. 하지만 소수의 짧은 문장으로 구성된 문서의 경우, 단어의 빈도수가 적기 때문에 각 단어의 특징을 정의하기 어려워 전통적인 LDA 기법을 적용하기 힘들다. 이를 극복하기위해 biterm topic modeling (BTM) 기법이 제안되었다. BTM은 각 topic에서 두 개의 단어가 동시에 등장하는 분포를 정의하는 방법이라고 볼 수있다. 실험 결과에서 볼 수 있듯이 전통적인 LDA 기법에 비해 각 topic 더 밀접한 키워드를 선택하는 것을 볼 수 있었다. N-gram 기법과 유사하게 두 개의 단어가 아닌 여러개의 단어가 동시에 등장하는 빈도 수도 고려해 볼 수 있을 것으로 생각된다. 

 

강성현

오늘 소개된 논문은 짧은 글로 의미를 전달하는 SNS가 확산되면서 이를 분석하기 위한 알고리즘 연구이다. 결국 연구의 핵심은 주어진 짧은 글을 어떻게 훈련이 가능하도록 올바른 방법으로 증폭할 것인지가 아닐까 생각된다. 때문에 이전 연구에서는 모든 짧은 글을 하나의 문서로 합하여 분석하는 방식을 사용했는데 주제가 다른 짧은 글들을 합하여 분석하다보니 각각의 주제가 희석되어 한 주제에서 추출된 단어 조합이 사실 큰 연관이 없는 문제가 발생될 수 있었다. 오늘 소개된 방법은 전체 짧을 글을 사용하는 방법은 동일하지만 두 단어의 조합을 하나의 Term으로 구성한 biterm을 사용하여 주제를 분석하는 방식을 사용한다. 이를 통해 이전 연구보다 더 나은 topic modelling이 가능하다고 본 논문은 주장하고 있다. 개인적으로는 아이디어가 참신하게 느껴졌지만, 아쉬운 점은(대부분 텍스트 마이닝 연구가 비슷하지만) 결과의 평가 부분에서 평가 지표의 선택이나 해석이 다소 자의적이라는 점이 아닐까 생각된다. 기존 논문에 대해 비판적 시각을 갖는 것이 연구자의 일반적인 태도일 것이다. 따라서 좀 더 지표가 객관적이거나 그것이 어렵다면 Topic model의 분석 결과 전부를 첨부하는 식으로라도 의문을 남기지 않는 것이 중요하리라 생각된다. 




이전글
다음글

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침