도서 소개
빅데이터를 활용하여 숨겨진 인과관계를 통계 분석기법으로 찾아내면 어떤 업종이나 업무에서든지 수익을 더 높이는 결정을 내릴 수 있다. 단 1원의 차이라도 통계적으로 유효하다는 분석을 해냈다면 이것이 나중에 수억, 수천억의 매출로 연결될 수 있는 것이다.
전작인 《빅데이터를 지배하는 통계의 힘》에서 빅데이터와 통계의 관계를 설명하고, 통계 마인드의 중요성과 통계학이 현대 사회에서 어떤 힘을 발휘하는지 소개했던 저자 니시우치 히로무는 《빅데이터를 지배하는 통계의 힘 - 실무활용 편》을 통해 어떤 통계 분석기법을 어떤 비즈니스 상황에 써야 알맞은지 실제 현장 사례를 들어 자세히 소개한다.
이 책은 전공자가 아닌 일반인의 수준에 맞춰 최적화된 설명 방법을 채택하여 현장에서 꼭 필요한 분석기법만 제시하고 까다로운 수식이나 증명 없이 글과 그림으로 분석기법을 설명하고 있으며 비즈니스 현장에서 일어나는 사례를 바탕으로 실무에서 ‘이럴 때는 이런 분석기법’을 바로바로 사용할 수 있도록 알려주어 쉽고 빠르고 정확하게 통계를 활용할 수 있도록 돕는다.
출판사 리뷰
‘평균’과 ‘비율’ 등 기초지식에서 ‘다중회귀분석’ 같은 고급기술까지
실무에 바로 적용하는 통계의 모든 것
빅데이터를 활용하여 숨겨진 인과관계를 통계 분석기법으로 찾아내면 어떤 업종이나 업무에서든지 수익을 더 높이는 결정을 내릴 수 있다. 단 1원의 차이라도 통계적으로 유효하다는 분석을 해냈다면 이것이 나중에 수억, 수천억의 매출로 연결될 수 있는 것이다.
전작인 《빅데이터를 지배하는 통계의 힘》에서 빅데이터와 통계의 관계를 설명하고, 통계 마인드의 중요성과 통계학이 현대 사회에서 어떤 힘을 발휘하는지 소개했던 저자 니시우치 히로무는 《빅데이터를 지배하는 통계의 힘 - 실무활용 편》을 통해 어떤 통계 분석기법을 어떤 비즈니스 상황에 써야 알맞은지 실제 현장 사례를 들어 자세히 소개한다.
이 책은 전공자가 아닌 일반인의 수준에 맞춰 최적화된 설명 방법을 채택하여 현장에서 꼭 필요한 분석기법만 제시하고 까다로운 수식이나 증명 없이 글과 그림으로 분석기법을 설명하고 있으며 비즈니스 현장에서 일어나는 사례를 바탕으로 실무에서 ‘이럴 때는 이런 분석기법’을 바로바로 사용할 수 있도록 알려주어 쉽고 빠르고 정확하게 통계를 활용할 수 있도록 돕는다.
이 책의 특징
수식을 최대한 줄여 이해도를 높이다
이 책은 ‘현상 파악’을 위해 대다수 직장인이 사용하는 평균과 비율에서부터 데이터의 배후에 놓인 인과관계를 적절하게 통찰하기 위한 통계 분석방법을 설명하는데, 모든 설명은 수식 없이 문장과 그림만으로 이해할 수 있도록 꾸몄다. 본질적인 이해를 돕기 위해 어쩔 수 없이 수식을 등장시켜야 할 경우엔 가급적 정수나 분수를 사용해 초등학생도 이해할 수 있도록 최대한 배려하여 뒷부분의 [수학적 보충]을 읽지 않더라도 본문의 이해에는 전혀 영향을 받지 않도록 하였다.
비즈니스 현장에서 꼭 필요한 통계 기법을 알려주다
비즈니스 실무자를 위한 통계학 실용서인 만큼 그들의 입장에 맞는 설명 방식과 꼭 필요한 기법만으로 내용을 구성했다. 가령, 평균이 인과관계를 밝혀내는 통찰의 통계학에서 얼마나 중요한지 짚어주며 표준편차, 표준오차가 실제 비즈니스 현장에서 어떤 의미가 있고 어떻게 활용되는지 알려준다. 또 가설이 올바른지 검증하게 해주는 t 검정, z 검정의 활용 예를 통하여 그냥 아무렇게나 결정하는 덜렁이와 어떤 행동도 시도하지 못하는 멍청이가 되는 위험을 피하게 도와준다. 그뿐만 아니라 로지스틱 회귀분석과 인자분석, 군집 분석 같은 일반적인 통계학 입문서에는 좀처럼 등장하지 않지만, 비즈니스 분석에서는 가장 많이 쓰이는 내용도 필수로 다룬다. 이 책에 나오는 통계 기법만 알면 비즈니스 현장에서 어떤 분석을 하더라도 곤란하지 않도록 엄선한 결과이다.
생활 속 현장 사례를 적용해 활용도를 높이다
고등학교 수학 시간에 그냥 공식으로만 외운 표준편차, 표준오차, 분산 등도 고객과 매출이라는 현실 숫자를 적용하면 이해도가 확 높아진다. 그 밖에도 고객이 정규분포로 구성되어 있다는 게 어떤 의미인지, 내점횟수와 매출의 관계, 영업자와 방문횟수의 관계, 군집 분석으로 어떻게 고객을 나누어놓을 것인지 등 현실감 있는 비즈니스 사례를 통해 까다로운 통계 분석기법을 일일이 설명해 실사용자의 활용도를 획기적으로 높였다.
최소제곱법에 기초하여 불규칙성이 내포된 데이터에서 참값을 추정하려면 어떤 방법이 가장 좋은가? 그 대답은 ‘평균을 사용하는 것이 추정 방법으로서 적절하다’이다. 일반적으로 평균은 ‘데이터값을 전부 더한 다음 총 개수로 나눈 것’이라고 알고 있다. 하지만 이 말은 어디까지나 계산 절차만을 나타낸 지극히 단순한 설명에 지나지 않는다. 다음의 말만큼은 끝까지 잘 기억해두었으면 한다. 평균은 최소제곱법에 기초하여 측정값에 포함되어 있는 차이를 가장 적게 만드는 뛰어난 추정값이다. 그리고 이런 생각이 힘을 얻게 된 배경에는 불규칙성이 존재하는 관측 대상 자체가 아니라 무엇인지는 몰라도 그 배후에 ‘참값’이 있는 것은 아닌가, 하는 상정이 존재하고 있다.
인과관계 파악에 중요한 ‘평균’의 본질
어쩌면 비즈니스맨도 동일한 상황일 수 있다. 학자라면 다소 멍청한 쪽에 있더라도 허용될지 모르지만 ‘유의수준 5%’가 아니라며 신중하게만 의사결정을 한다고 능사는 아니다. 자신이 단지 오차에 속고 있을 수도 있다는 리스크를 인정하고 기회를 거머쥐어야 할 때가 종종 있다. 다만 무엇이든 직감으로 의사결정을 하는 경우와, 데이터와 가설검정을 바탕으로 ‘그럼에도 리스크를 떠안는다’는 경우 사이엔 큰 차이가 존재한다. 후자라면 ① 리스크를 거의 떠안지 않고 끝나는 경우, ② 리스크를 떠안지 않도록 데이터를 추가 수집해야 하는 경우, ③ 무조건 리스크를 떠안아야만 하는 경우 등으로 나눠 생각해 볼 필요가 있다. 다시 말해 가설검정의 p-값이나 신뢰구간은 ‘자신이 덜렁이’인지 아닌지 깨닫게 해준다. 그것을 어떻게 활용하는가 하는 선택은 여러분의 경험과 직감에 의존해야 한다.
z 검정으로 덜렁이를 가르쳐라
가우스의 최소제곱법에는 없으면서 골턴과 피어슨의 회귀분석에는 존재하는 가장 큰 차이점은 ‘잘 보이지 않는 관계성을 분석할 수 있다’는 데에 있다. 언제 밤하늘의 어디에 별이 있었는지 관찰하고 기록하면 누구라도 별이 원을 그리며 움직인다는 사실을 알 수 있다. 가우스의 최소제곱법은 그런 누가 보아도 아는 움직임을 정확하게 수식으로 기술하고, 앞으로 언제 어디에 그 별이 존재하는지 예측할 수 있도록 했다. 그러나 부모의 키와 자녀 키의 관계성은 밤하늘처럼 누구라도 볼 수 있는 면 위에 존재하지 않는다. 분명 부모의 키와 자녀의 키로 산포도를 그리면 경향성은 엿보이지만 굳이 산포도의 가로축에 부모의 키를 둘 이유는 없다. 부모의 수입이나 유소년기의 운동 경험, 지금까지 먹은 빵의 개수도 자녀의 키와도 관계있다. 그 어느 것을 산포도의 가로축에 두든 아무 상관이 없다. 다시 말해 피어슨은 최소제곱법을 밤하늘이라는 구체적인 형태에서 출발하여 어떤 변수로도 나타낼 수 있는 산포도라는 추상적인 것으로까지 확장했다. 그것은 어떤 정보도 일단 수치화하면 관련성을 명백히 할 수 있는 통계학의 만능성으로 승화된다.
통계학의 왕도‘ 회귀분석’
작가 소개
지은이 : 니시우치 히로무
1981년 출생. 도쿄대학교 의학부 졸업(생물통계학 전공). 도쿄대학 대학원 의학연구과 의료 커뮤니케이션학 분야 조교수, 대학원 의료정보네트워크 연구센터 부센터장, 다나 파버 하버드암연구센터(Dana-Farber Cancer Institute, DFCI) 객원연구원을 거쳐 현재는 데이터를 바탕으로 사회 혁신을 일으키는 다양한 프로젝트에 참가하며 조사, 분석, 시스템 개발과 전략 입안을 컨설팅하고 있다. 저서로 《빅데이터를 지배하는 통계의 힘》, 《가위바위보 무조건 이기는 법》, 《1억 명의 사람을 위한 통계분석》, 《엑셀에 있는 간단한 통계분석의 기본》, 《직장인 고민, 답은 이미 나와 있다》, 《콜레라가 가르쳐준 것》,《세상에서 가장 알기 쉬운 의료통계》 등이 있다.
목차
| 감수자의 글
| 프롤로그
제1장 통계학의 실천은 기본부터 - ‘평균’과 ‘비율’을 제대로 알자
01 _ ‘통찰’의 통계학에 필요한 세 가지 지식
02 _ 인과관계 파악에 중요한 ‘평균’의 본질
03 _ 어떻게 평균으로 진실을 포착할 수 있는가
04 _ 표준편차로 ‘데이터의 대략적 범위’를 알 수 있다
제2장 통계학이 ‘최강’인 또 하나의 이유 – 표준오차와 가설검정
05 _ 제1종과 제2종 오류 사이에 놓인 ‘최강’의 개념
06 _ ‘오차범위’와 유의미한 통찰을 위한 표본크기 설계
07 _ 가설검정은 쓸모없는 토론에 종지부를 찍어준다
08 _ z 검정으로 덜렁이를 가르쳐라
09 _ 데이터가 적은 경우 t 검정과 피셔의 정확검정
10 _ 다중검정과 덜렁이 처방전
제3장 통찰의 왕이 되는 분석방법들 – 다중회귀분석과 로지스틱 회귀분석
11 _ 통계학의 왕도 ‘회귀분석’
12 _ 중학 수학으로 이해하는 회귀직선과 회귀식
13 _ 다양한 설명변수를 한번에 분석해주는 다중회귀분석
14 _ 로지스틱 회귀분석과 그 계산을 가능케 하는 로그오즈비
15 _ 회귀모형의 총정리와 보충
16 _ 회귀모형의 실제 활용법 - 투입편
17 _ 회귀모형의 실제 활용법 – 산출편
제4장 데이터의 배후를 파악한다 – 인자분석과 군집분석
18 _ 심리학자가 개발한 인자분석의 유용성
19 _ 인자분석이란 무엇인가
20 _ 군집분석의 기본 개념
21 _ k-means 방법에 의한 군집분석
제5장 통계 분석방법의 총정리와 사용 순서
22 _ 통계학의 이해도를 높여주는 단 한 장의 도표 실용판
23 _ 비즈니스에서 활용하는 경우 분석 순서
24 _ 한걸음 더 내딛기 위한 통계학 공부
| 에필로그
| 부록 <수학적 보충>
| 참고문헌