도서 소개
85가지 고급 예제로 배우는 하둡 실전 해법서. 현존하는 책 중 하둡과 관련해 가장 방대한 주제를 다루는 책이다. 이 책에서는 하둡에 대한 기본적인 소개부터 데이터 이동 및 직렬화를 다루는 데이터 로지스틱스, 효과적인 데이터 처리 패턴, 데이터 사이언스, 고수준 추상화 언어를 통한 맵리듀스 활용까지 하둡과 관련한 다양한 궁금증에 대한 답을 85개의 기법을 통해 찾는다. 이 책은 문제/해결책 접근법을 통해 누구든 원하는 궁금증을 빠르게 찾을 수 있는 형태로 돼 있으며, 각 주제에 들어가기에 앞서 다양한 그림과 설명으로 독자가 충분히 관련 주제를 익힐 수 있게 구성돼 있다.
이 책에서 소개하는 85개의 기법은 모두 실전 기법을 다루며, 현업에서 저자를 비롯한 수많은 개발자가 부딪힌 다양한 문제를 토대로 한다. 일례로 이 책에서는 데이터 불균형(data skew)을 효과적으로 해결하는 실전 기법, 캐싱을 활용한 최적화된 조인 방법, LZOP을 활용한 압축 방법, 샘플링을 활용한 효과적인 맵리듀스 파이프라인 최적화 등 실전에서 꼭 필요한 주제이지만 기존 책에서는 다루지 않는 주제를 엄선해 최고의 모범 기법과 해결책을 제시한다.
이 책을 통해 독자들은 하둡을 가장 효과적으로 활용하는 최고의 모범 기법은 물론, 다양한 상황에서 적합한 데이터 입출력 형식 및 압축 형식, 효과적인 코드 최적화 기법 및 디버깅 방법을 익힐 수 있고, 머하웃, 하이브, 피그, 크런치처럼 하둡 생태계를 구성하는 다른 프로젝트와의 연동 기법도 익힐 수 있다. 또 부록에서는 HDFS 내부에서 데이터 읽기/쓰기가 어떻게 진행되는지도 볼 수 있고, 데이터 사이언스 측면에서 빅 데이터를 분석하는 접근법에 대한 혜안도 얻을 수 있다.
출판사 리뷰
하둡은 대규모 클러스터로 분산된 데이터를 조회하고 분석할 수 있게 설계된 오픈소스 맵리듀스 플랫폼이다. 특히 빅 데이터 시스템에 효과적인 하둡은 애플, 이베이, 링크드인, 야후, 페이스북 같은 기업에서 핵심적인 소프트웨어를 처리하고 있다. 하둡을 통해 개발자는 데이터를 편리하게 저장, 관리, 분석할 수 있다.
《하둡 인 프랙티스》에서는 85개의 실전 예제를 수집해 이를 문제/해결책 형태로 보여준다. 이 책에서는 데이터 인그레스/이그레스, 직렬화, LZO 압축 같은 중요한 문제에 대한 개념적 토대를 쌓을 수 있게 하는 동시에 현실적인 레시피를 제공한다. 이 책에서는 각 기법을 단계별로 살펴보고, 이를 통해 구체적인 해결책과 더불어 이 해결책에 적용된 사고 방법을 배운다. 아울러 책에서 제공하는 예제는 이해하기 쉽고, 잘 구조화돼 있는 만큼 조금만 수정해 얼마든지 필요한 곳에 바로 활용할 수도 있다.
★ 이 책에서 다루는 내용 ★
◎ 하둡 및 맵리듀스에 대한 개념적 설명
◎ 85개의 검증된 실전 기법
◎ 현실적인 문제와 현실적인 해결책
◎ 맵리듀스와 R의 연동 방법
이 책에서는 독자들이 하둡에 대해 기본적으로 알고 있다고 가정한다.
작가 소개
저자 : 알렉스 홈즈
15년 이상의 대용량 분산 자바 시스템 개발 경험을 갖춘 수석 엔지니어다. 지난 4년간 알렉스는 하둡을 활용해 다양한 프로젝트에서 빅 데이터 관련 문제를 해결했고 이를 통해 전문성을 쌓았다. 알렉스는 자바원과 Jazoon에서 발표한 바 있으며 현재 베리사인(VeriSign)의 기술 리더다. 알렉스는 http://grepalex.com에서 하둡 관련 프로젝트를 운영하고 있으며, 트위터 주소는 https://twitter.com/grep_alex다.
목차
[1부] 배경과 기초
▣ 01장: 하둡 살펴보기
1.1 하둡이란?
1.2 하둡 실행
1.3 정리
[2부] 데이터 로지스틱스
▣ 02장: 하둡 데이터 이동
2.1 주요 인그레스 및 이그레스 고려 요소
2.2 하둡으로 데이터 옮기기
- 기법 1. 플룸을 활용한 HDFS로의 시스템 로그 발행
- 기법 2. HDFS로의 파일 자동 복사 메커니즘
- 기법 3. 우지를 활용한 정기적인 인그레스 활동 예약
- 기법 4 맵리듀스를 활용한 데이터베이스 인그레스
- 기법 5. 스쿱을 활용해 MySQL 데이터 불러오기
- 기법 6. HDFS로의 HBase 인그레스
- 기법 7. HBase를 데이터 소스로 활용하는 맵리듀
2.3 하둡 밖으로 데이터 옮기기
- 기법 8. HDFS 외부로의 파일 복사 자동화
- 기법 9. 스쿱을 활용한 MySQL로의 데이터 내보내기
- 기법 10. HBase로의 HDFS 이그레스
- 기법 11. 맵리듀스에서의 HBase 데이터 싱크 활용
2.4 장 정리
▣ 03장: 데이터 직렬화 텍스트 및 고급 데이터 형식
3.1 맵리듀스에서의 입출력 이해
3.2 자주 사용하는 직렬화 형식의 처리
- 기법 12. 맵리듀스와 XML
- 기법 13. 맵리듀스와 JSON
3.3 빅 데이터 직렬화 형식
- 기법 14. 시퀀스 파일의 활용
- 기법 15. 맵리듀스에서의 프로토콜 버퍼 연동
- 기법 16. 쓰리프트 활용
- 기법 17. 맵리듀스의 차세대 데이터 직렬화 방식
3.4 커스텀 파일 형식
기법 18. CSV용 입력 및 출력 형식 쓰기
3.5 장 정리
[3부] 빅 데이터 패턴
▣ 04장: 빅 데이터에 맵리듀스 패턴 적용하기