빅데이터 마이닝 3/e

홈 > 부모님 > 부모님 > 소설,일반 > 컴퓨터,모바일

빅데이터 마이닝 3/e
하둡을 이용한 대용량 데이터 마이닝 기법
에이콘출판 | 부모님 | 2021.04.29

정가
50,000원

판매가
45,000원 (10% 할인)

S포인트
2,500P (5% 적립)

상세정보
25.4x18 | 1.179Kg | 786p

ISBN
9791161755137

배송비
2만원 이상 구매시 무료배송 (제주 5만원 이상) ?

배송비 안내

전집 구매시

주문하신 상품의 전집이 있는 경우 무료배송입니다.(전집 구매 또는 전집 + 단품 구매 시)

단품(단행본, DVD, 음반, 완구) 구매시

2만원 이상 구매시 무료배송이며, 2만원 미만일 경우 2,000원의 배송비가 부과됩니다.(제주도는 5만원이상 무료배송)

무료배송으로 표기된 상품

무료배송으로 표기된 상품일 경우 구매금액과 무관하게 무료 배송입니다.(도서, 산간지역 및 제주도는 제외)

출고일
1~2일 안에 출고됩니다. (영업일 기준) ?

출고일 안내

출고일 이란

출고일은 주문하신 상품이 밀크북 물류센터 또는 해당업체에서 포장을 완료하고 고객님의 배송지로 발송하는 날짜이며, 재고의 여유가 충분할 경우 단축될 수 있습니다.

당일 출고 기준

재고가 있는 상품에 한하여 평일 오후3시 이전에 결제를 완료하시면 당일에 출고됩니다.

재고 미보유 상품

영업일 기준 업체배송상품은 통상 2일, 당사 물류센터에서 발송되는 경우 통상 3일 이내 출고되며, 재고확보가 일찍되면 출고일자가 단축될 수 있습니다.

배송일시

택배사 영업일 기준으로 출고일로부터 1~2일 이내 받으실 수 있으며, 도서, 산간, 제주도의 경우 지역에 따라 좀 더 길어질 수 있습니다.

묶음 배송 상품(부피가 작은 단품류)의 출고일

상품페이지에 묶음배송으로 표기된 상품은 당사 물류센터에서 출고가 되며, 이 때 출고일이 가장 늦은 상품을 기준으로 함께 출고됩니다.

주문수량
- －
- ＋

★★★★★
0/5

리뷰 0개

리뷰쓰기

구매문의 및 도서상담은 031-944-3966(매장)으로 문의해주세요.
매장전집은 전화 혹은 매장방문만 구입 가능합니다.

도서 소개
출판사 리뷰
작가 소개
목차
회원 리뷰

도서 소개

웹, 소셜 미디어, 모바일 활동, 센서, 인터넷 상거래, 그 외 많은 애플리케이션의 발달로 엄청난 규모의 데이터가 생성되고 있으며, 데이터 마이닝으로 이런 데이터에서 유용한 정보를 얻을 수 있다. 이 책은 데이터 마이닝 분야의 핵심 과제들을 해결하고, 대규모 데이터에 적용할 수 있는 현실적인 알고리즘들에 초점을 맞추고 있다.

출판사 리뷰

★ 이 책에서 다루는 내용 ★

■ 대규모 데이터를 처리할 수 있는 병렬 알고리즘을 만드는 툴인 분산 파일 시스템과 맵리듀스
■ 민해시와 지역성 기반 해시 알고리즘의 핵심 기술 및 유사도 검색
■ 매우 빨리 입력돼 즉각 처리하지 않으면 유실되는 데이터를 다루는 데 특화된 알고리즘과 데이터 스트림 처리
■ 구글의 페이지랭크, 링크 스팸 탐지, 허브와 권위자 기법을 포함하는 검색 엔진 기술
■ 연관 규칙, 시장바구니 모델, 선험적 알고리즘과 이를 개선한 기법들 및 빈발 항목집합 마이닝
■ 대규모 고차원 데이터 집합을 클러스터링하는 알고리즘
■ 웹 애플리케이션과 관련된 두 가지 문제인 광고와 추천 시스템
■ 소셜 네트워크 그래프처럼 매우 큰 구조의 분석과 마이닝을 위한 알고리즘들
■ 특이 값 분해와 잠재 의미 색인 및 차원 축소를 통해 대규모 데이터에서 중요한 속성을 도출해내는 기법들
■ 퍼셉트론, 서포트 벡터 머신, 경사 하강 같은 대규모 데이터에 적용 가능한 머신러닝 알고리즘
■컨볼루션 신경망, 순환 신경망, 장단기 메모리 네트워크 등 특수한 경우를 포함하는 신경망 및 딥러닝

★ 이 책의 대상 독자 ★

데이터베이스와 웹 기술을 선도하는 학자들이 쓴 이 책은 학생과 실무자 모두를 위한 필독 도서다. 다음의 과정을 익힌 독자들에게 적합한 책이다.

■ SQL 및 관련 프로그래밍 시스템을 주제로 하는 데이터베이스 시스템 입문
■ 대학 2학년 수준의 자료 구조, 알고리즘, 이산수학
■ 대학 2학년 수준의 소프트웨어 시스템, 소프트웨어 엔지니어링, 프로그래밍
언어

작가 소개

지은이 : 아난드 라자라만
실리콘 밸리를 본사로 둔 여러 회사의 기업가, 벤처 자본가이면서 학자다. 아마존닷컴(Amazon.com)이 인수한 정글리(Junglee)와 월마트(Walmart)가 인수한 코스믹스(Kosmix)라는 스타트업의 창업자기도 하다. 벤처 캐피탈 회사인 밀리웨이즈 랩(milliways Labs)과 캄브리언 벤처스(Cambrian Ventures)의 초기 창립 파트너로서, 다수의 촉망받는 회사들의 초기 투자자였던 경험이 있다. 최근까지 월마트 글로벌 이커머스(Walmart Global eCommerce)의 부사장을 역임했으며, @WalmartLabs의 공동 책임자로서 소셜, 모바일, 커머스 융합에 힘써왔다. 학계에서는 데이터베이스 시스템, 월드와이드웹, 소셜 미디어의 융합과 관련된 연구에 관심을 두고 있다. 그의 연구 논문은 ACM SIGMOD 및 VLDB의 10년 회고 우수 논문상을 비롯해 권위 있는 학회에서 여러 차례 수상했다. 또한 아마존 메커니컬 터크(Amazon Mechanical Turk)의 공동 창안자이기도 하며, 크라우스소싱(crowdsourcing)의 개념을 고안해낸 당사자다. 트위터(@anad_raj)에서 그를 팔로우할 수 있다.

지은이 : 제프리 데이비드 울만
스탠퍼드 W. 애셔먼(Stanford W. Ascherman) 컴퓨터학과 (명예)교수며 현재 그래디언스(Gradiance)의 CEO다. 데이터베이스 이론, 데이터 마이닝, 정보 구조를 활용한 교육이 주요 관심 연구 주제다. 그는 데이터베이스 이론 분야의 창시자 중 한 명으로서, 추후 데이터베이스 이론가가 된 세대 전체 학생들을 지도한 박사이자 고문이었다. 최근에는 커누스상(Knuth Prize)(2000), 시그모이드 E. F. 코드 혁신상(Sigmod E. F. Codd Innovations award)(2006)을 수상했다. 또한 그는 '자동화 및 언어 이론 분야의 토대 구축과 이론적 컴퓨터 과학으로의 중대한 공헌'을 발표해 2010 IEEE 존 폰 노이만 메달(John von Neumann Medal)을 (존 홉크로프트(John Hopcroft)와 함께) 공동으로 수상했다.

지은이 : 쥬어 레스코벡
스탠퍼드 대학교(Stanford University) 컴퓨터학과의 부교수로 재직 중이다. 주요 연구 분야는 대규모 소셜 네트워크 및 정보 네트워크 마이닝이다. 대규모 데이터, 웹과 온라인 미디어에 기인한 문제들에 관심이 많다. 이와 관련된 연구로 마이크로소프트 학술상(Microsoft Research Faculty Fellowship), 알프레드 P.슬론 학술상(the Alfred P.Sloan Fellowship), 오카와 재단 학술상(Okawa Foundation Fellowship)과 다수의 최고 논문상을 수상했다. 또한 스탠퍼드 네트워크 분석 플랫폼(SNAP, Stanford Network Analysis Platform)(http://snap.stanford.edu)과 수억 개의 노드 및 수십억 개의 에지(edge)를 갖는 대형 네트워크로 쉽게 확장 가능한 범용 네트워크 및 그래프 마이닝을 고안했다. 트위터에서 @jure로 그를 팔로우할 수 있다.

1장. 데이터 마이닝

1.1 데이터 마이닝이란?
1.1.1 모델링
1.1.2 통계 모델링
1.1.3 머신러닝
1.1.4 모델링에 대한 연산적 접근
1.1.5 요약
1.1.6 특징 추출
1.2 데이터 마이닝의 통계적 한계점
1.2.1 통합 정보 인지
1.2.2 본페로니의 이론
1.2.3 본페로니의 이론 사례
1.2.4 1.2절 연습문제
1.3 알아 두면 유용한 사실들
1.3.1 문서에서의 단어 중요도
1.3.2 해시 함수
1.3.3 인덱스
1.3.4 보조기억장치
1.3.5 자연 로그의 밑
1.3.6 멱 법칙
1.3.7 1.3절 연습문제
1.4 이 책의 개요
1.5 요약
1.6 참고문헌

2장. 맵리듀스와 새로운 소프트웨어 스택

2.1 분산 파일 시스템
2.1.1 노드들의 물리적 구조
2.1.2 대용량 파일 시스템 구조
2.2 맵리듀스
2.2.1 맵 태스크
2.2.2 키에 의한 그루핑
2.2.3 리듀스 태스크
2.2.4 컴바이너
2.2.5 맵리듀스 실행에 대한 더 자세한 설명
2.2.6 노드 장애 처리
2.2.7 2.2절 연습문제
2.3 맵리듀스를 사용하는 알고리즘
2.3.1 맵리듀스를 사용한 행렬 벡터 곱셈
2.3.2 벡터 v가 메인 메모리에 올라가지 않는 경우
2.3.3 관계 대수 연산
2.3.4 맵리듀스를 사용한 선택 연산
2.3.5 맵리듀스를 사용한 추출 연산
2.3.6 맵리듀스를 사용한 합집합, 교집합, 차집합 연산
2.3.7 맵리듀스를 사용한 자연 조인 연산
2.3.8 맵리듀스를 사용한 그루핑과 집계 연산
2.3.9 행렬 곱셈
2.3.10 한 단계 맵리듀스를 사용한 행렬 곱셈
2.3.11 2.3절 연습문제
2.4 맵리듀스의 확장
2.4.1 워크플로 시스템
2.4.2 스파크
2.4.3 스파크 구현
2.4.4 텐서플로
2.4.5 맵리듀스의 재귀적 확장
2.4.6 벌크 동기 시스템
2.4.7 2.4절 연습문제
2.5 통신 비용 모델
2.5.1 태스크 네트워크에서의 통신 비용
2.5.2 월-클록 시간
2.5.3 다중 조인
2.5.4 2.5절 연습문제
2.6 맵리듀스에 대한 복잡도 이론
2.6.1 리듀서 크기와 복제율
2.6.2 예제: 유사도 조인
2.6.3 맵리듀스 문제를 위한 그래프 모델
2.6.4 매핑 스키마
2.6.5 모든 입력이 주어지지 않은 경우
2.6.6 복제율의 하한값
2.6.7 사례 분석: 행렬 곱셈
2.6.8 2.6절 연습문제
2.7 요약
2.8 참고문헌

3장. 유사 항목 찾기

3.1 집합 유사도의 응용
3.1.1 집합의 자카드 유사도
3.1.2 문서의 유사성
3.1.3 유사 집합 문제에서의 협업 필터링
3.1.4 3.1절 연습문제
3.2 문서의 슁글링
3.2.1 k-슁글
3.2.2 슁글의 크기 선택
3.2.3 슁글의 해싱
3.2.4 단어를 기반으로 만드는 슁글
3.2.5 3.2절 연습문제
3.3 집합의 유사도 보존 요약
3.3.1 집합의 행렬 표현
3.3.2 민해싱
3.3.3 민해싱과 자카드 유사도
3.3.4 민해시 시그니처
3.3.5 민해시 시그니처 연산의 실제
3.3.6 민해싱 속도 향상
3.3.7 해시 함수를 사용한 속도 향상
3.3.8 3.3절 연습문제
3.4 문서의 지역성 기반 해싱
3.4.1 민해시 시그니처의 LSH
3.4.2 밴드 분할 기법의 분석
3.4.3 기법들의 결합
3.4.4 3.4절 연습문제
3.5 거리 측정
3.5.1 거리 측정법의 정의
3.5.2 유클리드 거리
3.5.3 자카드 거리
3.5.4 코사인 거리
3.5.5 편집 거리
3.5.6 해밍 거리
3.5.7 3.5절 연습문제
3.6 지역성 기반 함수의 이론
3.6.1 지역성 기반 함수
3.6.2 자카드 거리에 대한 지역성 기반 함수군
3.6.3 지역성 기반 함수의 확장
3.6.4 3.6절 연습문제
3.7 다른 거리 측정법들을 위한 LSH 함수군
3.7.1 해밍 거리에 대한 LSH 함수군
3.7.2 무작위 초평면과 코사인 거리
3.7.3 스케치
3.7.4 유클리드 거리의 LSH 함수군
3.7.5 유클리드 공간에서의 LSH 함수군에 대한 더 자세한 설명
3.7.6 3.7절 연습문제
3.8 지역성 기반 해시 응용 분야
3.8.1 개체 식별
3.8.2 개체 식별 예제
3.8.3 레코드의 일치 판정
3.8.4 지문 판독
3.8.5 지문 판독을 위한 LSH 함수군
3.8.6 유사한 신문 기사
3.8.7 3.8절 연습문제
3.9 높은 유사도 처리 방법
3.9.1 동일한 항목 찾기
3.9.2 집합의 문자열 표현
3.9.3 길이 기반 필터링
3.9.4 접두사 인덱싱
3.9.5 위치 정보 이용
3.9.6 인덱스 위치 및 길이 활용
3.9.7 3.9절 연습문제
3.10 요약
3.11 참고문헌

4장. 스트림 데이터 마이닝

4.1 스트림 데이터 모델
4.1.1 데이터 스트림 관리 시스템
4.1.2 스트림 소스의 예
4.1.3 스트림 질의
4.1.4 스트림 처리 시 이슈
4.2 스트림 데이터의 표본 추출
4.2.1 동기 부여를 위한 예제
4.2.2 대표 표본 추출
4.2.3 일반적인 표본 추출 문제
4.2.4 표본 크기 검증
4.2.5 4.2절 연습문제
4.3 스트림 필터링
4.3.1 동기부여를 위한 예제
4.3.2 블룸 필터
4.3.3 블룸 필터링 분석
4.3.4 4.3절 연습문제
4.4 스트림에서 중복을 제거한 원소 개수 세기
4.4.1 중복을 제거한 원소 개수
4.4.2 플라졸레-마틴 알고리즘
4.4.3 근사치의 조합
4.4.4 필요 공간
4.4.5 4.4절 연습문제
4.5 모멘트 근사치
4.5.1 모멘트의 정의
4.5.2 두 번째 모멘트를 위한 알론-마티아스-세게디 알고리즘
4.5.3 알론-마티아스-세게디 알고리즘 작동 원리
4.5.4 높은 모멘트
4.5.5 무한한 스트림의 처리
4.5.6 4.5절 연습문제
4.6 윈도우 내에서의 카운트
4.6.1 정확하게 개수를 세는 데 드는 비용
4.6.2 다타르-지오니스-인디크-모트와니 알고리즘
4.6.3 DGIM 알고리즘을 위한 공간 요구 조건
4.6.4 DGIM 알고리즘으로 질의 응답하기
4.6.5 DGIM 조건 유지하기
4.6.6 오차 줄이기
4.6.7 일반적인 개수 세기로 확장
4.6.8 4.6절 연습문제
4.7 감쇠 윈도우
4.7.1 자주 등장하는 원소를 찾는 문제
4.7.2 감쇠 윈도우의 정의
4.7.3 가장 인기 있는 원소들 찾기
4.8 요약
4.9 참고문헌

5장. 링크 분석

5.1 페이지랭크
5.1.1 초기 검색 엔진과 용어 스팸
5.1.2 페이지랭크의 정의
5.1.3 웹의 구조
5.1.4 데드 엔드 피하기
5.1.5 스파이더 트랩과 세금 매김
5.1.6 검색 엔진의 페이지랭크 사용
5.1.7 5.1절 연습문제
5.2 페이지랭크의 효율적인 연산
5.2.1 전이 행렬의 표현
5.2.2 맵리듀스를 이용한 페이지랭크 반복
5.2.3 결과 벡터를 합산해 내기 위한 컴바이너의 사용
5.2.4 전이 행렬의 블록 표현
5.2.5 페이지랭크 반복 연산을 위한 그 외 효율적인 접근법
5.2.6 5.2절 연습문제
5.3 주제 기반 페이지랭크
5.3.1 주제 기반 페이지랭크의 필요성
5.3.2 편향된 랜덤 워크
5.3.3 주제 기반 페이지랭크의 사용
5.3.4 단어로부터 주제 추론
5.3.5 5.3절 연습문제
5.4 링크 스팸
5.4.1 스팸 팜의 구조
5.4.2 스팸 팜 분석
5.4.3 링크 스팸과의 전쟁
5.4.4 트러스트랭크
5.4.5 스팸 매스
5.4.6 5.4절 연습문제
5.5 허브와 권위자
5.5.1 HITS의 직관적 이해
5.5.2 허브 지수와 권위 지수의 공식화
5.5.3 5.5절 연습문제
5.6 요약
5.7 참고문헌

6장. 빈발 항목집합

6.1 시장바구니 모델
6.1.1 빈발 항목집합의 정의
6.1.2 빈발 항목집합의 응용
6.1.3 연관 규칙
6.1.4 신뢰도가 높은 연관 규칙 찾기
6.1.5 6.1절 연습문제
6.2 시장바구니와 선험적 알고리즘
6.2.1 시장바구니 데이터의 표현
6.2.2 항목집합을 세기 위한 메인 메모리의 사용
6.2.3 항목집합의 단조성
6.2.4 쌍 개수로의 귀결
6.2.5 선험적 알고리즘
6.2.6 모든 빈발 항목집합을 위한 선험적 알고리즘
6.2.7 6.2절 연습문제
6.3 메인 메모리에서 더 큰 데이터셋 처리하기
6.3.1 PCY 알고리즘
6.3.2 다단계 알고리즘
6.3.3 다중 해시 알고리즘
6.3.4 6.3절 연습문제
6.4 단계 한정 알고리즘
6.4.1 단순 무작위 알고리즘
6.4.2 표본 추출 알고리즘에서의 오류 방지
6.4.3 SON 알고리즘
6.4.4 SON 알고리즘과 맵리듀스
6.4.5 토이보넨의 알고리즘
6.4.6 토이보넨의 알고리즘이 동작하는 이유
6.4.7 6.4절 연습문제
6.5 스트림에서 빈발 항목 개수 세기
6.5.1 스트림에서의 표본 추출 방법
6.5.2 감쇠 윈도우에서의 빈발 항목집합
6.5.3 기법들의 결합
6.5.4 6.5절 연습문제
6.6 요약
6.7 참고문헌

7장. 클러스터링

7.1 클러스터링 기법의 개요
7.1.1 점, 공간, 거리
7.1.2 클러스터링 전략
7.1.3 차원의 저주
7.1.4 7.1절 연습문제
7.2 계층적 클러스터링
7.2.1 유클리드 공간에서 계층적 클러스터링
7.2.2 계층적 클러스터링의 효율성
7.2.3 그 외의 계층적 클러스터링 처리 규칙들
7.2.4 비유클리드 공간에서 계층적 클러스터링
7.2.5 7.2절 연습문제
7.3 K평균 알고리즘
7.3.1 k평균의 기초
7.3.2 k평균의 클러스터 초기화
7.3.3 적합한 k값의 선택
7.3.4 BFR 알고리즘
7.3.5 BFR 알고리즘의 데이터 처리
7.3.6 7.3절 연습문제
7.4 CURE 알고리즘
7.4.1 CURE에서의 초기화
7.4.2 CURE 알고리즘의 종료
7.4.3 7.4절 연습문제
7.5 비유클리드 공간에서 클러스터링
7.5.1 GRGPF 알고리즘의 클러스터 표현 방식
7.5.2 클러스터 트리 초기화
7.5.3 GRGPF 알고리즘에서 점들을 추가하기
7.5.4 클러스터의 분할과 병합
7.5.5 7.5절 연습문제
7.6 스트림을 위한 클러스터링과 병렬 처리
7.6.1 스트림 연산 모델
7.6.2 스트림-클러스터링 알고리즘
7.6.3 버킷 초기화
7.6.4 버킷 병합
7.6.5 질의에 대한 응답
7.6.6 분산 환경에서의 클러스터링
7.6.7 7.6절 연습문제
7.7 요약
7.8 참고문헌

8장. 웹을 통한 광고

8.1 온라인 광고와 관련된 주제들
8.1.1 광고의 기회
8.1.2 광고 직접 배치
8.1.3 디스플레이 광고의 문제
8.2 온라인 알고리즘
8.2.1 온라인과 오프라인 알고리즘
8.2.2 탐욕적 알고리즘
8.2.3 경쟁률
8.2.4 8.2절 연습문제
8.3 조합 문제
8.3.1 조합과 완벽한 조합
8.3.2 최선 조합을 찾는 탐욕적 알고리즘
8.3.3 탐욕적 조합의 경쟁률
8.3.4 8.3절 연습문제
8.4 애드워즈 문제
8.4.1 검색 광고의 역사
8.4.2 애드워즈 문제의 정의
8.4.3 애드워즈 문제에 대한 탐욕적 접근법
8.4.4 밸런스 알고리즘
8.4.5 밸런스 알고리즘 경쟁률의 하한선
8.4.6 입찰자가 많은 경우의 밸런스 알고리즘
8.4.7 밸런스 알고리즘의 일반화
8.4.8 애드워즈 문제와 관련된 마지막 사실
8.4.9 8.4절 연습문제
8.5 애드워즈 구현
8.5.1 입찰과 검색 질의 조합
8.5.2 좀 더 복잡한 조합 문제
8.5.3 문서와 입찰 광고를 조합하는 알고리즘
8.6 요약
8.7 참고문헌

9장. 추천 시스템

9.1 추천 시스템 모델
9.1.1 다목적 행렬
9.1.2 롱테일
9.1.3 추천 시스템의 응용 분야
9.1.4 다목적 행렬 생성
9.2 내용 기반 추천
9.2.1 항목 프로파일
9.2.2 문서의 특징 추출
9.2.3 태그에서 얻는 항목 특징
9.2.4 항목 프로파일 표현
9.2.5 사용자 프로파일
9.2.6 내용 기반 항목 추천
9.2.7 분류 알고리즘
9.2.8 9.2절 연습문제
9.3 협업 필터링
9.3.1 유사성 측정
9.3.2 유사도의 이중성
9.3.3 사용자와 항목 클러스터링
9.3.4 9.3절 연습문제
9.4 차원 축소
9.4.1 UV 분해
9.4.2 평균 제곱근 오차
9.4.3 UV 분해의 단계적 연산
9.4.4 임의의 원소 최적화
9.4.5 완성된 UV 분해 알고리즘 구현
9.4.6 9.4절 연습문제
9.5 넷플릭스 챌린지
9.6 요약
9.7 참고문헌

10장. 소셜 네트워크 그래프 마이닝

10.1 소셜 네트워크 그래프
10.1.1 소셜 네트워크란 무엇인가?
10.1.2 그래프로서의 소셜 네트워크
10.1.3 다양한 소셜 네트워크들
10.1.4 다양한 종류의 노드를 갖는 네트워크
10.1.5 10.1절 연습문제
10.2 소셜 네트워크 그래프 클러스터링
10.2.1 소셜 네트워크 그래프의 거리 측정법
10.2.2 표준 클러스터링 방법의 적용
10.2.3 중계성
10.2.4 거번-뉴먼 알고리즘
10.2.5 중계성을 사용해 커뮤니티 찾기
10.2.6 10.2절 연습문제
10.3 커뮤니티의 직접적 발견
10.3.1 무리 찾기
10.3.2 완전 이분 그래프
10.3.3 완전 이분 부분 그래프 찾기
10.3.4 완전 이분 그래프가 존재해야 하는 이유
10.3.5 10.3절 연습문제
10.4 그래프 분할
10.4.1 분할을 잘하는 방법은 무엇인가?
10.4.2 구분선 정규화
10.4.3 그래프를 설명하는 행렬들
10.4.4 라플라스 행렬의 고유값
10.4.5 또 다른 분할 방식
10.4.6 10.4절 연습문제
10.5 겹치는 커뮤니티 찾기
10.5.1 커뮤니티의 본질
10.5.2 최대 가능도 추정법
10.5.3 소속-그래프 모델
10.5.4 커뮤니티 할당의 이산형 최적화
10.5.5 이산적인 멤버십 변경을 피하는 방법
10.5.6 10.5절 연습문제
10.6 유사순위
10.6.1 소셜 그래프의 랜덤 워커
10.6.2 재출발이 가능한 랜덤 워커
10.6.3 근사 유사순위
10.6.4 근사 유사순위가 동작하는 이유
10.6.5 커뮤니티 찾기를 위한 유사순위의 응용
10.6.6 10.6절 연습문제
10.7 삼각형의 개수 세기
10.7.1 삼각형 개수를 세는 이유
10.7.2 삼각형을 찾는 알고리즘
10.7.3 삼각형을 찾는 알고리즘의 효율
10.7.4 맵리듀스를 사용해 삼각형 찾기
10.7.5 더 적은 리듀스 태스크 사용하기
10.7.6 10.7절 연습문제
10.8 그래프의 이웃 특징
10.8.1 방향 그래프와 이웃들
10.8.2 그래프의 지름
10.8.3 이행적 폐쇄와 도달 가능성
10.8.4 맵리듀스를 통한 도달 가능성
10.8.5 세미-나이브 평가
10.8.6 선형 이행적 폐쇄
10.8.7 재귀적 배가에 의한 이행적 폐쇄
10.8.8 지능형 이행적 폐쇄
10.8.9 방법 비교
10.8.10 그래프 축소에 의한 이행적 폐쇄
10.8.11 이웃들의 크기 추정
10.8.12 10.8절 연습문제
10.9 요약
10.10 참고문헌

11장. 차원 축소

11.1 대칭 행렬의 고유값과 고유 벡터
11.1.1 정의
11.1.2 고유값과 고유 벡터 계산
11.1.3 반복 제곱법으로 고유쌍 찾기
11.1.4 고유 벡터의 행렬
11.1.5 11.1절 연습문제
11.2 주성분 분석
11.2.1 설명에 도움이 되는 예제
11.2.2 차원 축소를 위한 고유 벡터의 사용
11.2.3 거리의 행렬
11.2.4 11.2절 연습문제
11.3 특이값 분해
11.3.1 SVD의 정의
11.3.2 SVD의 해석
11.3.3 SVD를 사용한 차원 축소
11.3.4 작은 특이값을 제거하는 방식이 동작하는 이유
11.3.5 콘셉트를 사용한 질의
11.3.6 행렬의 SVD 계산
11.3.7 11.3절 연습문제
11.4 CUR 분해
11.4.1 CUR의 정의
11.4.2 행과 열의 적절한 선택
11.4.3 중간 행렬 구성
11.4.4 CUR 분해 완성
11.4.5 중복된 행과 열 제거
11.4.6 11.4절 연습문제
11.5 요약
11.6 참고문헌

12장. 대규모 머신러닝

12.1 머신러닝 모델
12.1.1 학습 집합
12.1.2 설명에 도움이 되는 예제
12.1.3 머신러닝 기법들
12.1.4 머신러닝의 구조
12.1.5 12.1절 연습문제
12.2 퍼셉트론
12.2.1 임계값 0으로 퍼셉트론 학습시키기
12.2.2 퍼셉트론의 수렴
12.2.3 위노우 알고리즘
12.2.4 임계점의 변경을 허용하기
12.2.5 다중 클래스 퍼셉트론
12.2.6 학습 집합 변형
12.2.7 퍼셉트론의 문제점
12.2.8 퍼셉트론의 병렬 구현
12.2.9 12.2절 연습문제
12.3 서포트 벡터 머신
12.3.1 SVM의 동작 원리
12.3.2 초평면 정규화
12.3.3 최적 근사치 구분자 찾기
12.3.4 경사 하강법에 의한 SVM 해
12.3.5 확률적 경사 하강법
12.3.6 SVM의 병렬 구현
12.3.7 12.3절 연습문제
12.4 최근접 이웃 학습
12.4.1 최근접 이웃을 계산하기 위한 프레임워크
12.4.2 하나의 최근접 이웃 학습
12.4.3 일차원 함수 학습
12.4.4 커널 회귀 분석
12.4.5 고차원 유클리드 데이터 처리
12.4.6 비유클리드 거리 처리
12.4.7 12.4절 연습 문제
12.5 의사결정 트리
12.5.1 의사결정 트리 사용
12.5.2 불순도 측정
12.5.3 의사결정 트리 노드의 설계
12.5.4 수치형 특징을 사용한 테스트 선택
12.5.5 범주형 특징을 사용한 테스트 선택
12.5.6 의사결정 트리의 병렬 설계
12.5.7 노드 가지치기(Node Pruning)
12.5.8 의사결정 포레스트
12.5.9 12.5절 연습문제
12.6 학습 방식의 비교
12.7 요약
12.8 참고문헌

13장. 신경망과 딥러닝

13.1 신경망 소개
13.1.1 신경망
13.1.2 노드 간 상호 연결
13.1.3 컨볼루션 신경망
13.1.4 신경망 설계 문제
13.1.5 13.1절 연습문제
13.2 고밀도 피드 포워드 네트워크
13.2.1 선형 대수 표기법
13.2.2 활성 함수
13.2.3 시그모이드
13.2.4 쌍곡선 탄젠트
13.2.5 소프트맥스
13.2.6 정류 선형 유닛
13.2.7 손실 함수
13.2.8 회귀 손실
13.2.9 분류 손실
13.2.10 13.2절 연습문제
13.3 역전파와 경사 하강법
13.3.1 계산 그래프
13.3.2 경사, 야코비안, 연쇄 규칙
13.3.3 역전파 알고리즘
13.3.4 경사 하강 반복하기
13.3.5 텐서
13.3.6 13.3절 연습문제
13.4 컨볼루션 신경망
13.4.1 컨볼루션 레이어
13.4.2 컨볼루션과 교차 상관
13.4.3 풀링 레이어
13.4.4 CNN 아키텍처
13.4.5 구현과 학습
13.4.6 13.4절 연습문제
13.5 순환 신경망
13.5.1 RNN 학습시키기
13.5.2 경사 소실과 폭발
13.5.3 장단기 기억
13.5.4 13.5절 연습문제
13.6 정칙화
13.6.1 norm 패널티
13.6.2 드롭아웃
13.6.3 조기 종료
13.6.4 데이터셋 증강
13.7 요약