본문 바로가기

Dev. Database/Big data

10주년 맞은 하둡··· 더그 커팅의 회고와 전망

아파치 하둡이 지난 1월 28일 10주년을 맞은 가운데, 공동 창안자 더그 커팅이 하둡의 초창기를 회고하고 미래를 진단했다.



10년 전 2006년 1월 28일, 더그 커팅(Doug Cutting)과 마이크 카파렐라(Mike Cafarella)는 오픈소스 웹 크롤러 프로젝트인 아파치 너츠(Apache Nutch)를 분산형 파일 시스템과 맵리듀스(Map Reduce)로 분리한 다음, 하둡(Hadoop)이라는 하위 프로젝트를 탄생시켰다. 커팅은 아들이 가지고 놀던 코끼리 봉제인형의 이름에 착안해 이 프로젝트의 이름을 지었다.

커팅과 카파렐라는 2003년부터 너츠를 함께 추진했었다. 그런데 구글이 2004년 발표한 2개의 연구 자료가 '영감'을 줬다. 단 몇 줄의 코드로 수천 개의 머신을 병렬로 가동시킬 수 있는 컴퓨팅 환경을 구현시켜주는 분산형 파일 시스템(GFS)과 실행 엔진(맵리듀스)에 관한 연구 자료들이었다.

당시 커팅과 카파렐리는 수십 억 웹 페이지를 처리할 수 있는 분산형 시스템을 개발하는 시도를 하고 있었다. 커팅은 구글의 방식이 너츠를 훨씬 현실적인 시스템으로 만들어줄 것으로 판단했다. 특히 다른 여러 애플리케이션에서 사용될 잠재력에 그는 주목했다.

빅데이터의 대표 주자
그리고 10년 후인 지금 하둡은 여러 측면에서 빅데이터를 상징하는 '단어'가 됐다. 아울러 데이터 및 애널리틱스(분석) 기술의 혁신에 촉매 역할을 하고 있다. 현재 클라우데라(Cloudera)의 최고 아키텍트로 재직하고 있는 커팅은 하둡의 현재를 상상조차 하지 못했다고 회고했다.

그는 "전세계 기업들에 널리 도입될 것이라고 상상조차 못했다. 나에게도 무척 놀라운 일이다. 오늘날 모든 산업이 디지털화되고 있는 추세이며, 하둡이 성장과 진보의 원동력이 되고 있다. 이러한 모습은 상상조차 못했다"라고 말했다.

오늘날 철도, 항공, 병원 등 디지털과는 거리가 있는 회사들까지 고도로 디지털화되는 시대가 펼쳐지고 있는 점을 언급하며 커팅은, "하둡이 이런 트렌드에 도움을 받았다. 데이터 저장과 처리에 대한 수요가 높아지고 있다"라고 말했다.

해커와 엔터프라이즈의 충돌
그러나 커팅은 자신을 더 크게 놀라도록 만든 이면의 트렌드가 있다고 강조했다. 지난 10년 동안 2개의 이질적인 소프트웨어 전통이 병합한 것이 그것이다. 다름 아닌, '엔터프라이즈'라는 전통과 '해커'라는 전통이다.

커팅은 하둡 10주년을 축하하는 블로그 게시글에서 이와 관련해 다음과 같이 설명했다.

"엔터프라이즈 전통에서는 벤더드링 소프트웨어를 개발해 기업에 판매했다. 그러면 기업이 이를 운용했다. 둘이 협력하는 경우는 드물었다. 엔터프라이즈 소프트웨어는 거의 대부분의 문제를 극복하는데 RDBMS를 이용한다. 사용자는 오직 자신들의 RDMBS만 신뢰했다. 이를 이용해 비즈니스 데이터를 저장하고 처리했다. 비즈니스 데이터는 반드시 RDMBS에 기반을 둬야 했다."

"해커라는 전통에서는 대학, 연구소, 실리콘 밸리 웹 기업들이 자신들이 쓸 소프트웨어를 직접 개발해 사용했다. 개발자는 네트워크 트래픽 라우팅, 웹 페이지 생성 및 배포 등 특정 사안을 다루는 소프트웨어를 개발한다. 나는 이 후자의 전통에 뿌리를 두고 있다. 특히 10년 넘게 검색 엔진 관련 기술을 개발하면서 이 전통을 중시했다. 우리는 RDMBS를 거의 사용하지 않았다. 전체 웹을 검색할 수 있도록 확장하기 어려웠고, 지나치게 느렸으며, 유연하지 못했고, 많은 비용이 필요했기 때문이다."



야후의 지원
커팅은 2006년 하둡을 독자적인 프로젝트로 분리시킨 후 야후에 합류했으며, 그 결과 수십 명의 엔지니어 및 수천 대의 컴퓨터와 접하는 환경을 누릴 수 있었다고 회고했다.

그는 "10년 전에는 하둡이 제대로 작동을 하지 않았었다. 계속 시도를 하기 위해 고군분투해야만 했었다"라고 말했다.

그는 야후에 합류한 이후 회사 측은 풍부한 자원 덕분에 합리적인 가격의 상용 하드웨어를 이용, 페타바이트의 데이터를 처리할 수 있는 안정적이면서도 신뢰도 높은 시스템을 이용할 수 있었다. 훨씬 빨리, 그리고 손쉽게 광고, 오탈자 점검, 페이지 레이아웃 등의 방법을 구현할 수 있었던 것이다.

그리고 야후는 이렇게 개선된 하둡을 내부에서 사용하기 시작했다. 그리고 페이스북, 트위터, 링크드인을 중심으로 외부 사용자들도 이를 배포하기 시작했다. 이와 함께 하둡을 기반으로 새로운 하둡 생태계의 핵심이 될 수 있는 프로젝트가 추진됐다. 아파치 피크(Apache Pig), 아파치 하이브(Apache Hive), 아파치 에이치베이스(Apache HBase)를 예로 들 수 있다. 학계에서도 이를 사용하기 시작했다.

주류 업계의 수용
물론 여기에서 끝나지 않았다. 보안, API, '빅 배치(BIg batch)' 컴퓨팅만 지원한다는 단점에도 불구하고, 하둡의 용도가 웹과 학계를 넘어서고 있음을 확인한 벤처 캐피탈리스트들이 커팅에게 접근했다.

커팅은 "솔직히 나는 그들이 제정신이 아니라고 생각했다. 은행, 보험 회사, 철도 회사들은 내가 개발한 오픈소스 기반 '해커' 소프트웨어를 운영한 적이 없는 회사들이기 때문이다"라고 말했다.

커팅은 초기 이들을 돌려보냈다. 그러나 벤처 캐피탈리스트들은 포기하지 않았다. 이들은 2008년 클라우데라 설립에 필요한 재원을 투자했다. 하둡과 관련 기술을 기존 기업에 보급시킨다는 목표를 가진 회사였다.

커팅은 "미국의 주류 기업과 기관들이 해커 전통에 뿌리를 둔 소프트웨어를 수용할 것이라고 상상하기 어려웠다. 이에 따라 클라우데라 같은 회사를 통해 이들이 이용할 수 있도록 처음부터 '갭'을 메워 나갈 필요가 있다고 판단했다"라고 말했다.

그리고 VC(벤처 캐피탈리스트)가 본 가능성을 커팅이 확인하기까지 다시 1년이 걸렸다.

그는 "거대 기업들이 웹사이트와 콜센터, 현금 등록기, 바코드 스캐너 등를 경유하는 비즈니스 데이터를 더 많이 수집할 수 있는 기술을 잇달아 도입하고 있었다"고 전했다.

그러나 포천 500대급의 기업이나 기관이 이용해온 기존의 RDBMS 기술은 이렇듯 방대하고 복잡한 데이터를 이용하기에 적합하지 않았다. 커팅에 따르면, 너무 경직되어 있어 변수, 혼잡한 데이터, 빠른 실험을 제대로 지원하지 못한다. 또 페타바이트급으로 쉽게 확장할 수도 없다. 무엇보다 많은 비용이 필요하다. 또 경비와 조달 절차 때문에 엔지니어들이 데이터를 이용하기 위한 새로운 아이디어를 실험할 수 없다. 그러나 하둡은 이런 문제들을 극복할 수 있다.

커팅은 "오픈소스는 굉장한 힘을 갖고 있다. 소프트웨어 개발과 도입을 앞당기는 촉매 역할을 한다. 오픈소스 소프트웨어는 이런 점에서 다른 방식으로 개발된 소프트웨어를 크게 앞선다. 기업 내 여러 개발자들이 안심하고 오픈소스 소프트웨어를 시험해 도입할 수 있다. 기업의 엔지니어들이 분석을 시도하려는 상황이라고 치자. 그가 IT에 새 데이터베이스를 배포에 관해 이야기하기 원할까? 아니면, 그냥 데이터를 다운로드 받아 시험하기 원할까?"라고 말했다.



하둡의 미래
커팅은 오늘날 엔터프라이즈라는 전통과 해커라는 전통이 융합하고 있다고 진단했다. 이제 엔터프라이즈에서는 소프트웨어를 개발하는 주체, 이를 사용하는 주체 사이에 명확한 경계선이 없다. 일례로 클라우데라의 고객들은 정기적으로 클라우데라 엔지니어와 협력하며, 사용자가 소프트웨어 개선 과정에 직접 참여하는 사례도 많다.

그는 "오늘날에는 특정한 하나의 소프트웨어 요소가 지배하지 않는다. 이제 하둡은 아마 가장 오래되고 성공적인 소프트웨어 구성 요소 중 하나일 것이다. 그러나 매년 새롭게 개선된 기술이 구현되고 있다. 아파치 스파크(Apache Spark) 같은 새로운 실행 엔진, 아파치 쿠두(인큐베이트 단계) 같은 새로운 스토리지 시스템은 하둡 소프트웨어 생태계가 중앙 통제점 없이도 계속해서 급격히 진화하고 있음을 보여준다. 사용자들이 더 빨리 더 나은 소프트웨어를 입수해 이용할 수 있게 됐다"라고 설명했다.

한편 커팅은 컴퓨터 아키텍처 측면에서의 전망도 제시했다. 그는 먼저 향후 소프트웨어 부문에서 새로운 '핫'한 기술이 무엇이 될지 예상할 수 없다면서도 배포 모델에 큰 변화가 있을 것으로 내다봤다. 사물들이 느리지만 확실하게 클라우드로 옮겨가고 있으며, 클라우드 기반 운영을 더 빨리 효과적으로 지원할 도구가 필요하다는 의미이다. 도커(Docker) 같은 콘테이너 도구가 발전하면 변화가 본격화될 전망이다.

하드웨어 개발 또한 크게 바뀔 것으로 그는 예상했다. 예를 들어, 인텔은 플래시 메모리와 DRAM을 결합한 엑스포인트(XPoint) 기술을 선보였다.

커팅은 "배치한 아키텍처의 경제성과 성능을 근본적으로 바꾸고 싶다면, 이런 새로운 경제에서 장점을 가져올 수 있게 소프트웨어를 바꿔야 한다. 개선되거나 새로운 툴들이 등장할 것으로 생각한다"라고 말했다. ciokr@idg.co.kr

Read more: http://www.ciokorea.com/news/28363?page=0,1#csidx1E8kGy 
Copyright © LinkBack