::고려대학교 DMQA 연구실::

Data Mining

 

 

 

Data Mining>Data Mining News  

하둡/맵리듀스 왕 기초

작성자 관리자 작성일 2012-09-16 오전 11:52:15
내용

하둡/맵리듀스 (by 김성범 교수, 고려대학교 산업경영공학부)

 

하둡 시스템은 아파치 소프트웨어 재단에서 후원하여 개발된 프레임워크로 기존의 어려웠던 분산 처리(Parallel Computing)를 보다 쉽게 할 수 있도록 고안된 시스템이라고 하겠다. 하둡시스템의 정식 명칭은 The Apache Hadoop Software Library이며 짧게 하둡이라고 부른다. 하둡의 특징은 어렵고 복잡한 문제를 분산처리를 통해 쉽게 해결한다기 보다는 단순하지만 방대한 양의 데이터를 빠르고 효과적으로 처리하는데 있다고 하겠다. 

 

하둡은 Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce등의 컴포너트들로 구성되어 있다. 여기서 중요한 컴포넌트는 구글에 의해 2004OSDI (Operating Systems and Implementation) 심포지움에서 발표된 맵리듀스(MapReduce)라는 알고리즘 이다. 맵리듀스는 하둡의 분산처리를 효과적으로 수행하기 위한 프로그래밍의 중요한 개념으로 기본 아이디어는 복잡한 것은 맵핑 ()을 통해 변환하고 이 변환된 값들을 요약(리듀스)하여 효과적으로 보여주는 것이다.  , 알고리즘을 코딩 할 때 맵과 리듀스라는 두 개의 함수(function)로 나누어 구현하는 것이다.

 

현재 맵리듀스를 구현하기 위해서 대표적으로 사용되는 컴퓨터언어는 자바(JAVA)와 파이선 (Python) 두 가지이다. 자바를 사용하는 것의 대표적인 서비스는 Hadoop/MapReduceApache-Whirr이고 파이선을 사용하는 대표적인 서비스에는 미국 맛집 싸이트로 유명한Yelp 사의  MRJob 과 구글의GAE MapReduce 가 있다.  

 

분산 처리를 하기 위해서는 분산처리용 컴퓨터가 존재해야 하는데 이에 부담이 있다면 실제로 구입을 하지 않아도 "Amazon EMR" 라고 불리는 아마존에서 제공하는 서비스 (유료)를 이용하여 얼마든지 프로그램을 하둡시스템하에서 구현할 수 있다. 이는 렌트의 개념으로 필요시에만 사용할 수 있다는 장점이 있다.

 

하둡시스템은 무료로 누구든지 다운로드를 받을 수 있다. 일단 본인의 컴퓨터에 하둡시스템이 깔리면 하둡을 이용한 분산처리를 할 준비가 된 것이다. 보다 중요한 것은 맵리듀스를 이용한 프로그래밍인데 이 부분이 사실 가장 어려운 부분이다.

 

맵리듀스 프로그래밍의 가장 기본적인 예는 방대한 양의 문서에 담겨있는 단어의 개수 세기이다. 이는 복잡한 작업이라기 보다는 매우 단순하지만 그 양이 방대하여 시간이 많이 걸리는 작업이다. 맵 단계에서는 각 단어를 0 혹은 1로 변환하고 리듀스단계에서는 그 순자를 세워주면 된다. 매우 간단한 개념이지만 복잡한 문제를 맵리듀스로 설계하는 일은 그리 쉽지만은 않다. 데이터마이닝에서 많이 활용되고 있는 장바구니분석도 맵리듀스로 구현한 예가 있다. 하둡은 현재 다양한 기업에서 사용되고 있는데 대표적으로 야후, 페이스북 등이고 많은 데이터분석 기업들도 하둡 시스템을 점차 구축하고 있다.

 

 요약하여 보자.

(1)  하둡은 분산처리를 위한 것이므로 여러 대의 컴퓨터가 (네트워크로) 연결되어 있는 클러스터가 존재하는 상황에서 각각의 컴퓨터에 하둡을 설치하고 마스터 노드에서 전체를 컨트롤 할 수 있는 (하둡에) 설정을 만들어주는 데부터 시작한다. 한마디로 하둡은 분산처리를 손 쉽게 할 수 시스템이며 무료다.무료라 좋지만 그만큼 친절한 사용설명은 기대하기 어렵다.

(2)  하둡 시스템 하 분산처리의 핵심은 맵리듀스 알고리즘이다. 맵리듀스 알고리즘 기반 프로그램으로 분산처리가 가능한 것이다.

(3)  맵리듀스를 구현할 수 있는 언어는 대표적으로 자바와 파이선이 있다. 파이선은 비교적 사용하기 쉬운 언어이다.

(4)  Yelp 에서 제공하는 MRJob 은 파이선을 이용해 맵리듀스 개념의 프로그래밍을 할 수 있게 해 주는 대표적인 서비스로 무료다.

(5)  Amazon EMR 서비스 (유료; 저렴함)를 이용하면 실제 분산용 컴퓨터가 없어도 하둡 분산처리가 가능하다.




이전글
다음글
 
36 네이버의 자율주행기술, IT 업체로는 국내 최초 김성범 2017/03/11 2023
35 "직원 상상력이 회사 바꿔" SK하이닉스의 실험 김성범 2017/03/08 1751
34 CFP, 한국 BI 데이터마이닝학회 2014 춘계학술대회 관리자 2014/03/11 18629
33 CFP, Anals of Operations Research, Special Volume on Data .. 관리자 2013/12/23 4790
32 한국BI데이터마이닝학회 2013 추계학술대회 관리자 2013/11/25 5214
31 국민건강보험공단 빅데이터 학술용 활용 관리자 2013/06/02 18731
30 한국BI데이터마이닝학회 2013 춘계학술대회 관리자 2013/03/18 18758
29 빅 데이터? 김성범 2013/03/11 4654
28 빅데이터 기술 선진화 5000억 투자 관리자 2012/11/29 3325
27 한국BI데이터마이닝학회 2012추계학술대회 관리자 2012/11/28 3183
26 Big Data, Data Mining, Data Quality -ISSIE 관리자 2012/11/16 3362
25 2012 가을 국제세미나 (빅데이터, 도전과 미래) 관리자 2012/10/29 3221
>> 하둡/맵리듀스 왕 기초 관리자 2012/09/16 4416
23 데이터기술에서 데이터 과학으로 관리자 2012/07/19 3468
22 제9, 10회 서울대학교 데이터마이닝 캠프 개최안내 관리자 2012/01/25 3607
이전10개 1 2  3  다음10개

(136-713) 서울시 성북구 안암로145 고려대학교 자연계캠퍼스 신공학관 211호 | TEL.02-3290-3769
고려대학교 산업경영공학과 데이터마이닝 및 품질애널리틱스 연구실. All Right Reserved. 개인정보처리방침