본문으로 바로가기

RECENT POST

TAG

rss   |   mail

[카페24 호스팅] 알아봅시다_ 빅 데이터 시대, 왜 '하둡'에 주목하나?

호스팅 | Posted at 2012.11.28 18:05

카페24 The 완벽한 호스팅
빅 데이터 시대, 왜 '하둡'에 주목하나?

쇼핑몰 창업



글, 사진, 동영상, 위치 정보에 이르기까지 데이터 폭증 시대를 살고 있습니다. 빅 데이터 시대가 도래하면서 빅 데이터에 대한 분석, 처리, 활용 방안에 대해 고민이 본격화 되고 있는데요~


이를 반영이라도 하듯이 2013년 예상되는 IT분야 최대 이슈로 빅 데이터 도입 및 활용이 꼽힌 바 있습니다. 빅 데이터의 도입과 활용은 대체 무슨 말인지 궁금하시죠?!
다시 보기: 2013년 10대 IT 이슈 전망  


빅 데이터의 도입과 활용 이야기를 하기 위해서는 하둡을 빼놓고 할 수 없습니다. 빅 데이터 시대에 큰 주목을 받고 있는 기술이 바로 '하둡(Hadoop)' 인데요, 지금부터 하둡 기술이 무엇이고 어떻게 활용 가능한지 살펴보도록 하겠습니다. ^^



● 대량 데이터도 신속 처리~ 빅데이터 시스템 구축 가속화



카페24 호스팅


하둡은 대량의 자료를 처리할 수 있는 분산처리 기술로, 거대한 데이터 세트를 간편하게 분산처리 할 수 있는 자바 기반의 프레임워크를 제공합니다.


여러개의 저가형 컴퓨터를 하나로 묶어(저렴한 x86 서버로 가상화 된 대형 스토리지를 구성하여) 계산능력과 저장공간을 늘린다고 쉽게 이해하시면 됩니다. ^^


빅 데이터 시대에 하둡이 주목받고 있는 이유는 저렴한 비용으로 빅 데이터 시스템을 구축할 수 있는 이점 때문입니다.


하둡이 제공하는 분산파일시스템(HDFS)맵리듀스(MapReduce)는 오픈소스 프레임워크로, 수 페타바이트(PB)에 이르는 대용량 데이터를 저렴한 비용으로 빠르게 처리하고 분석할 수 있게 도와줍니다.


카페24 호스팅




하둡의 핵심 요소는 '분산 처리'와 '분산 저장' 인데요~ 분산 처리를 위해서 맵리듀스 라는 프레임워크에 맞추어 코딩을 하고 하둡 시스템에서 이것을 실행하면 자동으로 분산처리를 해줍니다.


그리고 하둡 파일시스템(HDFS: Hadoop Distributed File System)을 이용해 파일을 적당한 블록 사이즈로 나눠 각각의 개별 컴퓨터에 분산 저장을 합니다. 각 블록은 복사본을 만들어 두는데요, 이는 데이터 유실 위험이나 동시 이용자가 많을때 부하처리를 위한 것입니다.


이처럼 분산 저장을 함으로써 저가형 저장소 여러개를 묶어서 RAID 처럼 동작하게 할 수 있습니다. RAID(Redundant Array of Independent Disks 혹은 Redundant Array of Inexpensive Disks) 기술은 성능, 안정성을 얻기 위해 여러 개의 작고, 저렴한 하드디스크를 묶어서 하나의 디스크처럼 사용할 수 있도록 하는 기술을 말합니다.  ☞ RAID 기술이 궁금하다면 여기를 CLICK!


데이터 양이 증가하면 성능이 저하되고 비용이 증가하는 게 당연한데요~ 앞으로 저렴한 비용으로 대용량의 데이터를 빠르게 분석 처리하기 위한 하둡 기반의 빅 데이터 시스템을 구축하는 곳들이 많아질 것으로 예상됩니다. ^^

Posted by cafe24