본문 바로가기

Dev. Database/Big data

(9)
10주년 맞은 하둡··· 더그 커팅의 회고와 전망 아파치 하둡이 지난 1월 28일 10주년을 맞은 가운데, 공동 창안자 더그 커팅이 하둡의 초창기를 회고하고 미래를 진단했다. 10년 전 2006년 1월 28일, 더그 커팅(Doug Cutting)과 마이크 카파렐라(Mike Cafarella)는 오픈소스 웹 크롤러 프로젝트인 아파치 너츠(Apache Nutch)를 분산형 파일 시스템과 맵리듀스(Map Reduce)로 분리한 다음, 하둡(Hadoop)이라는 하위 프로젝트를 탄생시켰다. 커팅은 아들이 가지고 놀던 코끼리 봉제인형의 이름에 착안해 이 프로젝트의 이름을 지었다. 커팅과 카파렐라는 2003년부터 너츠를 함께 추진했었다. 그런데 구글이 2004년 발표한 2개의 연구 자료가 '영감'을 줬다. 단 몇 줄의 코드로 수천 개의 머신을 병렬로 가동시킬 수 있..
"대기업 100%, 하둡 도입할 것이다"...포레스터가 선정한 5대 하둡 배포판 포레스터 리서치(Forrester Research)의 빅데이터 분석가들이 내놓은 새로운 보고서에 따르면, 데이터에 대해 고급 분석을 수행하고 실용적인 시야를 얻고자 하는 조직에게 하둡 도입은 "필수"다. Credit: thinkstock 포레스터는 기업이 보유한 데이터의 60~73%가 비즈니스 인텔리전스와 분석에 사용되지 못하고 방치된다고 추산했다. 분석가 마이크 괄티에리와 노엘 유한나는 지난주 공개한 하둡 배포판에 대한 웨이브(Wave) 보고서에서 "이는 특히 고객에 대한 심층적이고 실용적인 시야가 경쟁을 위한 필수 요소인 시대에서 용납할 수 없는 수준"이라고 말했다. 또한 애플리케이션 개발자와 제공 전문가가 '일제히' 하둡을 수용 중이라면서, 대기업들은 결국 100% 하둡을 도입하게 될 것으로 예측했..
네이버 데이터 곳간 개방 10년 축적 자료 활용 길 열려 0년간 축적된 네이버의 데이터를 일반 시민들이 마음껏 활용할 수 있게 됐다. 네이버가 최근 자신들의 '데이터 곳간'을 통크게 이용자들에게 공개한 것이다. 네이버는 이용자들이 네이버 등 민간 기업과 공공 기관의 데이터를 활용할 수 있도록 빅데이터 포털 '데이터 랩(datalab.naver.com)'의 베타 버전을 14일 열었다. 빅데이터 포털 '데이터 랩' 민간·공공 자료 접근 가능 개인 보유 데이터와 융합 지역 정보도 한눈에 파악 자영업자 등 큰 도움 예상 네이버 데이터랩의 핵심은 이용자들이 다양한 민간·공공 데이터를 한눈에 볼 수 있고, 더 나아가 이를 자신이 보유한 데이터에 융합해 다방면으로 활용할 수 있다는 점에 있다. 특히, 사업을 운영하거나, 창업을 계획 중인 이용자들에게는 자신들만의 데이터 경..
하둡 완벽 가이드 요약 Hadoop 완벽 가이드참고서적 이 문서의 내용은 Hadoop 완벽 가이드 서적을 스터디하면서 정리한 내용 입니다. 1장 하둡과의 만남2장 맵리듀스3장 하둡 분산 파일시스템4장 하둡 IO5장 맵리듀스 프로그래밍6장 맵리듀스 작동 방법7장 맵리듀스 타입과 포맷8장 맵리듀스 기능9장 하둡 클러스터 설정10장 하둡 관리11장 피그12장 하이브[13장 HBase]14장 주키퍼15장 스쿱16장 사례 연구HBase 샘플 프로그래밍문서정보이 문서는 구루비에서 작성하였습니다.이 문서를 다른 블로그나 홈페이지에 게재하실 경우에는 출처를 꼭 밝혀 주시면 고맙겠습니다.~^^출처 : http://wiki.gurubee.net/pages/viewpage.action?pageId=23232525&구루비 지식창고의 모든 문서는 크..
쉽게 배우는 하둡 에코 시스템(Hodoop eco system) 하둡은 비즈니스에 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공됩니다. 이러한 서브 프로젝트들이 상용화되면서, 하둡 에코 시스템(Hadoop ECO system)이 구성됐습니다. 참고로 하둡 에코 시스템은 하둡 생태계라고 표현되기도 합니다. 아래 그림은 하둡 에코 시스템을 나타낸 것입니다. 분산 데이터를 저장하는 HDFS와 분석 데이터를 처리하는 MapReduce가 하둡 코어 프로젝트에 해당하며, 나머지 프로젝트는 모두 하둡의 서브 프로젝트입니다. 아파치 하둡 프로젝트에 속하는 프로젝트도 있지만, 업체에서 자사의 솔루션으로 이용하다가 오픈 소스로 공개한 프로젝트도 있습니다. 각 각의 서브 프로젝트들의 특징은 다음과 같습니다. 1. Zookeeper분산 환경에서 서버들간에 상호 조정이 필요한 다..
데이터사이언티스트 : 빅데이터 교육 가이드 [출처] 엔코아 블로그 엔코아 리포트는 매달 발행되는 데이터 웹진에 연재됩니다.데이토 회원이 되시면 매달 둘째주 화요일 데이토 웹진을 매일로 받아보실 수 있습니다. 데이터를 기반으로 시장을 선도하고 있는 기업들이 늘어나고 있다. 포브스지가 매년 선정하고 있는 혁신 기업 2015년 TOP 100에는 테슬라, 넷플릭스, 우버 등은 대중들에겐 아직 생소하지만, 뼛속까지 혁신 자체인 기업들이 즐비하다. 1위인 테슬라는 전기 자동차의 역사를 써 나가고 있고, 넷플릭스는 맞춤형 방송 컨텐츠 제작으로 미디어 시장을 흔들고 있으며, 우버나 에어비앤비는 기존 운수업과 숙박업의 패러다임을 바꾸고 있다. 하지만 이런 생소한 혁신 기업들 외에 GE나 메트라이프처럼 우리에게 익숙한 기업들도 세계적인 혁신 기업으로 이름을 올리고..
[BI ②] 빅데이터, BI 활용도 높인다 빅데이터의 대두와 함께 BI(Business Intelligence)에 대한 관심이 높아지고 있다. 데이터 분석 결과를 쉽고 구체적으로 파악해 직관적으로 살펴볼 수 있게 하는 BI는 합리적 의사결정을 지원하는 도구로 이미 자리매김했지만, 빅데이터의 시대가 개막되면서 그 가치가 더욱 제고되고 있는 것이다. 글로벌 BI 전문기업 마이크로스트레티지도 BI 시장 공략에 박차를 가하고 있다. 지난 2015년 9월 새로운 BI 솔루션으로 ‘마이크로스트레티지 10’을 출시한 마이크로스트레티지는 국내 시장 공략을 가속화하기 위해 한국지사의 컨설팅 인력을 확충, 보다 공격적인 접근을 진행할 계획이다. 컨설팅 인력 충원은 아직도 빅데이터를 까다로워하는 고객에게 현재의 환경과 요구에 맞는 보다 적합하고, 손쉬운 이행 방향을..
[BI ①] “빅데이터 2.0 대두, 새로운 도약 나래 달았다” 빅데이터의 대두와 함께 BI(Business Intelligence)에 대한 관심이 높아지고 있다. 데이터 분석 결과를 쉽고 구체적으로 파악해 직관적으로 살펴볼 수 있게 하는 BI는 합리적 의사결정을 지원하는 도구로 이미 자리매김했지만, 빅데이터의 시대가 개막되면서 그 가치가 더욱 제고되고 있는 것이다.최근 몇 년간 IT 시장을 관통하는 화두는 바로 빅데이터다. 일상 생활과 업무 수행 과정에서 방대한 데이터가 생성되는 오늘날 더 많은 데이터를 대상으로 분석을 수행해 더욱 기존에 미처 발견하지 못했거나, 혹은 더 정확한 결과를 도출해야 한다는 요구가 바로 빅데이터다.빅데이터를 촉발시킨 이슈는 바로 하둡(Hadoop)이다. 분산파일 시스템을 기반으로 대용량 데이터를 비용효율적으로 저장할 수 있게 하는 하둡의..