
구매문의 및 도서상담은 031-944-3966(매장)으로 문의해주세요.
매장전집은 전화 혹은 매장방문만 구입 가능합니다.
지은이 : 제레미 프로핏
1977년생으로, 끊임없이 시스템을 개선하고 누구보다 빠르게 문제를 해결하는 데 몰두하는 SRE의 정석과도 같은 인물이다. 엔지니어링에 대한 집요한 태도는 시스템을 더 완성도 높게 만드는 원동력이다. 솔루션과 기술 지식의 대가이며, AWS 아키텍처 및 데브옵스 프로페셔널 자격증을 보유한 능력치 만렙 SRE로서 경력 내내 수백만 달러에 달하는 잠재적 매출 손실을 막아냈다. '능력치 만렙'이라는 별명에 걸맞게 여가 시간에는 자신의 기술 아지트에서 3D 프린팅, 전자공학, IoT 프로젝트에 몰두한다. 현재 최고의 SRE 및 데브옵스 인재들로 구성된 팀을 이끌며 지속적인 개선을 주도하고 있다. 회사 내에서는 관측 가능성 및 비상 대응 분야의 선구자로 불린다.
지은이 : 로드 아나미
클라우드 인프라 및 소프트웨어 엔지니어링 기술 분야의 숙련된 엔지니어다. 킨드릴(Kyndryl) CoE의 SRE 중 한 명으로, 전 세계 고객을 위한 IT 현대화, 혁신, 자동화 프로젝트를 수행하는 다른 SRE들을 코칭한다. 킨드릴 내의 글로벌 SRE 길드를 이끌며, 여러 국가에서 SRE 챕터가 자리 잡고 성장하게 돕고 있다. 최고 수준의 SRE, 기술 전문가, 데브옵스 엔지니어 프로페셔널로 인증받았다. AWS, 하시코프(HashiCorp), 애저, 쿠버네티스 등 다수의 자격증을 보유하고 있다. 이 외에도 Node.js 라이브러리를 만들고 다듬으며 오픈소스에 기여하는 일에 열정을 쏟고 있다.
1부 - SRE 핵심 이해: 역할, 업무, 필요성
01장 SRE 직무: 주요 활동과 책임
개인 성장의 과정
__SRE의 원동력
__SRE의 역량
__SRE의 특징
사고방식과 취미
__SRE 성향 테스트
__SRE의 기본 원칙
__SRE의 취미
데브옵스 엔지니어 vs SRE vs 또 다른 엔지니어
__데브옵스 엔지니어와 SRE
__소프트웨어 엔지니어와 SRE
주요 책임
__운영 업무 책임
__엔지니어링 업무 책임
일상 업무
__대응 업무
__예방 업무
영감을 주는 사람들
__제레미의 감사: 폴 티마
__로드의 감사: 인고 아버덩크, 진 브라운
요약
더 읽을거리
02장 핵심 수치: 신뢰성 통계
SLA 협약: 숫자를 넘어선 소통
__내부 파트너를 위한 SLA
__외부 파트너를 위한 SLA
__9의 가치
__SLA 마무리
SLO 및 SLI 정의와 효과적인 활용법
__SLO
__SLO와 측정 기간
MTBF를 활용한 서비스 중단 빈도 추적
MTTR을 활용한 서비스 중단 시간 측정
수익 및 고객 영향도 분석
__서비스 중단 투명성 확보
__능력치 만렙 SRE의 SLA
요약
03장 위험한 습관: 임시방편 아키텍처와 스파게티 코드
비용으로 보는 소프트웨어 개발 사업
__소프트웨어의 가치
__사업 보호의 가치
__사업 성장의 가치
__인건비 절감의 가치
A/B 테스트 사고방식
__고객 상호작용과 A/B 테스트
__A/B 테스트 결과 분석
__분기 실적과 A/B 테스트
개발자의 헌신과 직업의식
__효과적인 소통 방법
병합 요청 검토
__형식적인 승인은 금물
__운영 환경 배포 시 고려 사항
모범 사례를 외면하는 이유
__개발자 업무 소유권
__개발 비용 추정의 결함
__속도, 품질, 비용: 선택의 문제
__관측 가능성: 신뢰성 문제의 해답
__고가용성과 비용
나쁜 코드 개선 전략
__장애 알림
__로깅 강화
__예외 처리
__신중한 재시도
요약
2부 - 사이트 신뢰성 엔지니어링을 위한 관측 가능성 구현
04장 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스
기술 요구 사항
시스템 모니터링과 원격 측정법
__인프라 모니터링
__모니터링 종류와 도구
__골든 시그널 모니터링
__데이터 모니터링
APM의 이해
토폴로지 자가 발견, 폭발 반경, 예측 가능성 및 상관관계
경보: 조용하게 하는 기술
__사용자 관점 알림 발생 원칙
__인시던트 이벤트 연결 원칙
모든 것을 활용한 관측 가능성
__시스템 중단 vs 중단 시간
__관측 가능성 아키텍처
__관측 가능성 효과
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
05장 해결 전략: 트러블슈팅 정복
문제의 올바른 정의와 올바른 질문
__정보의 출처
__제보자의 지식 수준
__이름 규칙
__잘못된 긴급성
__실행 요약
분석과 테스트를 위한 시스템
__하드웨어와 운영체제의 분해
__웹 API 분해
__단계 이해
__중간 지점 문제 해결 방법론의 문제점
작은 문제를 확인하기 위한 과거, 일반적인 이벤트
__기존의 근본 원인 분석 문서
__시계열 분석
__비교
__최선의 방법
인터넷과 동료를 통한 효과적인 검색
__구글 검색의 기술
__빠른 검토와 개선
__내부 자원 활용
효율적인 소스코드 분석
__생소한 코드
__실패를 했을 경우
코드와 로그
실습: 학습 내용 적용
요약
06장 운영 프레임워크: 인프라와 시스템 관리
기술 요구 사항
시스템 관리의 학문적 접근
__설계
__설치
__설정
__애플리케이션 배포
__운영
__업그레이드
__삭제
IT 서비스 운영의 이해
__ITIL
__데브옵스
다양한 계층과 다양한 분야로서 시스템 운영의 접근
시스템 구축과 운영 자동화
__코드로서의 인프라
__변하지 않는 인프라
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
07장 데이터 활용: 관측 가능성 데이터 과학
기술 요구 사항
데이터 기반 의사 결정
__질문과 선택지 정의
__데이터 선택
__이미 사용 가능한 데이터 확인
__누락 데이터 수집
__모든 데이터 세트 종합 분석
__의사 결정 기록 제시
__프로세스에서 얻은 교훈 문서화
과학적 접근법을 통한 문제 해결
__질문
__가설
__예측
__실험
__분석
가장 일반적인 통계 방법 이해
__백분율
__평균, 산술 평균, 표준 편차
__분위수와 백분위수
__히스토그램
관측 가능성에 수학 모델 활용
__몬테카를로 시뮬레이션
__머신러닝
그라파나로 도수분포표 시각화하기
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__latency.py
__실습 설명
요약
더 읽을거리
3부 - 신뢰성을 위한 아키텍처 적용
08장 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계
기술 요구 사항
신뢰성을 위한 설계
__아키텍처 측면
__신뢰성 방정식
__설계 패턴
__모던 애플리케이션
워크로드의 분할과 밸런싱
__분할
__분산
페일오버
스케일 업과 스케일 아웃: 수평 vs 수직
__수평 스케일링
__수직 스케일링
__오토스케일링
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
09장 자동화의 가치: 단순 반복 작업의 발견과 제거
기술 요구 사항
단순 반복 작업 제거
__단순 반복 작업의 재정의
__단순 반복 작업이 나쁜 이유
__단순 반복 작업을 잘 처리하는 방법
소프트웨어 문제로 다루는 자동화
__문서화
__알고리듬
__코드
CI/CD 파이프라인
__지속적인 통합
__지속적인 전달
__운영 배포
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
10장 파이프라인 공개: 깃옵스 및 테스트 필수 요소
기본 파이프라인: 인프라, 코드 배포를 위한 자동화
__시간 순서를 갖는 파이프라인
__파이프라인 템플릿
__파이프라인의 에러 또는 중단
__파이프라인 내에서 컨테이너 사용
__파이프라인 아티팩트
__파이프라인 문제 해결 팁
컴플라이언스, 보안 검사 자동화
__오래된 라이브러리
__애플리케이션 보안 테스트
__동적 애플리케이션 보안 테스트
__정적 애플리케이션 보안 테스트
__비밀 정보 검사
린트를 이용한 코드 품질, 표준 자동화
__린트 피드백을 활용한 컴파일
기능 검증을 위한 테스트 자동화
__신뢰성과 테스트의 연관성
__테스트 데이터
__테스트의 다양한 유형
__파이프라인 테스트 시기
__테스트의 관측 가능성
__자동 롤백
자동화에 따른 개발자의 단순 반복 작업 감소
__단순 반복 작업을 줄이는 의미
실습: 학습 내용 적용
__실습을 위한 AWS 준비
__저장소 생성
__저장소에 비밀 정보 추가
__실습 파일 다운로드와 커밋
__파이프라인 이해
__스텝 추가
__배포 없이 테스트만 실행
__마지막 처리
요약
11장 작업 군단: 서버리스, 컨테이너, 쿠버네티스의 오케스트레이션
기술 요구 사항
서버리스의 다양한 정의
__서버리스 프레임워크
__서버리스 컴퓨팅
__서버리스 함수
__서버리스 함수 모니터링
__에러
컨테이너가 사랑받는 이유
__격리
__불변성
__배포 용이성
__태깅
__롤백
__보안
__서명
__컨테이너 모니터링
쿠버네티스와 기타 컨테이너 오케스트레이션 방법
__헬스 체크
__충돌과 강제 종료된 컨테이너
__HTTP 기반 부하 분산
__서버 부하 분산
__서비스로서의 컨테이너(CaaS)
__간단한 컨테이너 오케스트레이션
쿠버네티스
다양한 배포 기술
__전통적인 교체 배포
__롤링 배포
__A/B 또는 블루 그린 배포
__카나리 배포
배포 자동화와 롤백
__롤백 메트릭
__롤백 시점
__롤백 방식
실습: 학습 내용 적용
__깃포드 활용: 컨테이너화된 작업 공간
__에뮬레이션 소스코드
__에뮬레이션 실행
요약
12장 최종 점검: 테스트 전략과 용량 설계
기술 요구 사항
다양한 테스트 유형
__개발 단계 테스트
__빌드 단계 테스트
__전달 단계 테스트
__배포 단계 테스트
__운영 단계 테스트
테스트 주도 개발
__고전적인 단위 테스트
__프레임워크를 사용한 단위 테스트
테스트 자동화 프레임워크 활용
용량 계획을 통한 선제적 대응
__부하 테스트 데이터
__용량 곡선
__수요 곡선
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 절차
요약
더 읽을거리
4부 - 장애 상황 완벽 대응
13장 첫 번째 과제: 운영 절차서와 저소음 장애 알람
기술 요구 사항
훌륭한 운영 절차서의 조건
__살아 숨 쉬는 운영 절차서
__독자의 지식 수준
__접근 권한 관리
__핵심 구성 요소
운영 절차서 너머의 통찰
__소스코드 신속 분석
__코드 속 핵심 정보 찾기
__이해를 돕는 주석
좋은 대시보드의 요건
__대시보드의 유형
__적색 신호와 녹색 신호
__추세 표시
__집계 및 세부 분석
__대시보드와 알림
우선순위 수준
__대응 노력
__엔지니어 이탈 방지
__장애 관리 시스템과 우선순위
__장애 관리 시스템과 스마트폰 통합
__P1 이벤트
__우선순위 정의
__관측 가능성 장애의 우선순위 수준
__우선순위 강제
__알림 조정
__로그 기반 알림
__알림 중지
실습: 학습 내용 적용
__우선순위 수준 정의
__운영 절차서
__알림
요약
14장 신속 대응: 장애 관리 기법
협업 공간 전략
__온라인 협업
__대면 협업
__장애 대응 기록의 활용
__참여자
__후속 조치
장애 대응 인력 활용법
__업무 배분
__대응 참여자의 성격 유형
__휴식 전략과 스트레스 관리
적시 대응의 중요성과 기회
__훈련 기회
__운영 문서 최신화
__팀워크 강화
__경영진을 향한 전략적 소통
__개선 사항 제안의 기회
고객 및 경영진과의 소통 방법
__고객 소통과 경영진 소통
__소통 주기
__이메일 그룹
__상태 페이지
__과도한 소통의 역효과
__기록, 또 기록
실습: 학습 내용 적용
__장애 및 알림
__통지 및 대응
__문제 해결
__결론
요약
15장 솔직한 사후 분석: 장기적인 해결책
경영진 핵심 요약 사후 분석
__경영진 핵심 요약
__개요
__영향도
__타임라인
__기술적 분석
__참여자 및 기여자
__해결 과정 및 결과
__향후 조치
결정을 비난하지 말 것
__비즈니스 관점
__자원 및 시간 제약
__모니터링
비즈니스와 신뢰성 향상
__액티브-액티브 구성
__수동 장애 조치
__장애 식별 시간
__부하 전환 시간
__숨겨진 개발 비용
훈련과 역량의 중요성
__역량 격차 파악
__자격증 취득
실행 계획 수립
__즉각적인 후속 조치
__참여 대상 선정
__타임라인과 우선순위
__소유권 할당
__작업 추적
실습: 사후 분석의 예
__개요 작성
__사후 분석 마무리
맞춤형 모자 회사 사후 분석 보고서
영향도
타임라인
기술적 세부 사항 및 대응
해결
향후 조치
요약
5부 - 미래 동향 및 SRE 인터뷰 준비
16장 카오스 주입기: 고급 시스템 안정성
기술 요구 사항
불운의 수레바퀴 게임 이해
__모든 끝은 새로운 시작
__장애 상황에서 얻는 교훈
__모의 장애 훈련
__게임화 기법
신뢰성 향상을 위한 카오스 엔지니어링
__카오스 엔지니어링의 원칙
__카오스 시스템 아키텍처
__카오스 실험
실습: 불운의 수레바퀴 게임 적용
__실습 아키텍처
__실습 내용
__실습 지침
실습: 시스템에 카오스 주입
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
17장 면접 조언: 채용과 구직
SRE의 자격 요건
__자가 평가
__신입 엔지니어
__문제 해결 능력
__협업과 수용의 자세
__폭넓은 지식과 기술
__리서치 및 학습 능력
__거절할 수 있는 용기
__조직 문화 적합성
__X 인자
__열정
__경험
__주인의식과 책임감
면접 질문 심층 분석
__기술 역량 질문
__비기술적 역량 질문
__통찰력 있는 엉뚱한 질문
좋은 직무와 회사 선택 기준
__좋은 상사의 정의
__점선 보고 체계
__기업 윤리
지원 회사 심층 분석
__비즈니스 모델
__향후 10년간의 수익성
__구조
__대기업과 중소기업
__상장사와 비상장사
__온라인 기업 리뷰
자격증의 가치와 함정
__가치 있는 자격증
__적정한 자격증 수
__관련성
성공적인 연봉 협상
__면접 팁
__연봉 협상
요약
부록 A 사이트 신뢰성 엔지니어 선언문
선언문
선언문 활용 방법
선언문 기여 방법
부록 B 12팩터 선언문 적용에 관한 설문
설문
__팩터 I: 코드베이스
__팩터 II: 종속성
__팩터 III: 설정
__팩터 IV: 백엔드 서비스
__팩터 V: 빌드, 릴리스, 실행
__팩터 VI: 프로세스
__팩터 VII: 포트 바인딩
__팩터 VIII: 동시성
__팩터 IX: 폐기 가능
__팩터 X: 개발/운영 환경 일치
__팩터 XI: 로그
__팩터 XII: 관리 프로세스
설문 활용 방안
설문 개선에 기여
도서 DB 제공 - 알라딘 인터넷서점 (www.aladin.co.kr)