본문 바로가기

책 통계의 힘 리뷰 모음

짧지식 2019. 12. 24.

요즘은 빅데이터에 대한 중요성이 커지고 있는데요

이 책은 2013년에 나온책인데요

베스트셀러였던 책이기도 합니다

책 빅데이터를 지배하는 통계의 힘 리뷰 모음입니다

 

 

[목차]

[책 리뷰 모음]

 


 

평점 4/5점

 

빅데이터를 지배하는 통계의 힘

 - 통계학이 최강의 학문이다

 

이 책의 제목에는 빅데이터가 들어가 있지만,

 

실제로 이 책의 목적은 빅데이터가 아닌 통계에 대한 내용을 말하기 위한 것입니다.

 

 

이 책에서 가장 중요한 키워드를 꼽으라면, 바로 두 가지 단어를 꼽을 수 있습니다.

 

바로 빅데이터와 리터러시입니다.

 

 

우선 오늘날 우리가 말하는 빅데이터는 크게 두 가지 의미를 지니고 있습니다.

 

첫번째 의미는 데이터의 양이 방대해 종래의 방법으로는 수집, 저장, 검색, 분석하기

 

어려운 것을 말합니다.

 

두번째 의미는 그런 큰 데이터를 여러 기법을 이용해 유의미한 정보로 만들어내는

 

과정까지를 포함합니다.

 

 

다음으로 리터러시는 '확률과 데이터를 읽는 기본 능력'을 말합니다.

 

 

즉, 굉장히 분량이 많은 데이터를 가지고 제대로 읽는 것이 중요하다고 말하고 있는 것이

 

바로 이 책의 내용입니다.

 

 

빅데이터에 대해서 나오는 이슈들을 보면, 통계라는 표현은 거의 못 본것 같습니다.

 

사실 통계라는 것이 데이터를 다루는 학문이다 보니, 빅데이터라는 표현에서

 

통계와의 연관성을 유추할 수 있겠지만, 다른 측면에서 생각해 보면,

 

최근에 유행하는 이슈이다 보니, 뭔가 새로운 것이 있어, 기존 학문, 혹은 기존 학문과의

 

연계성이 달라질 수도 있겠다는 생각이 들기도 합니다.

 

데이터로 부터 의미있는 정보를 찾아내는 통계의 기본적인 기능을 생각하면,

 

빅데이터라는 새로운 이슈에 대해서도, 통계의 역할이나 그 관련성이 사라진 것이 아니고,

 

오히려 통계의 역할이 점점 더 중요해 지고 있다는 사실을 사람들에게 알려주고 있습니다.

 

 

인터넷, 스마트폰, SNS라는 21세기의 변화로 인해, 이전과는 상상할 수 없을 정도로

 

엄청난 데이터가 쏟아져 나오고 있습니다. 쏟아져 나오는 엄청난 데이터로 부터 유의미한

 

정보를 찾아내는 것이 우리의 삶에 중요한 역할을 할 것 이라는 사례들이 곳곳에서

 

나오고 있습니다. 이 책에는 이런 빅데이터로 부터 의미있는 정보들을 찾아내는 방법이나

 

정보를 찾아내어 사용한 사례들을 알려주고 있습니다.

 

말그대로 통계가 하고 있는 일을 보여주고 있는데요.

 

사람들에게 통계를 읽는 힘을 갖춰야 한다고 주장하고 있습니다.

 

저자 나름대로 쉽게 쓰기위해 노력한 흔적은 느낄수 있었지만,

 

통계를 전공한 적도 없고, 통계에 대한 사전지식이 없는 상황에서

 

책을 읽어나가기에는 약간 어려움을 느꼈습니다.

 

세부적인 사항을 모두 이해하는데는 어려웠지만,

 

개론적인 측면에서 데이터를 가공하여 의미있는 정보를 찾아내는 다양한 방법이 있다는

 

것만은 확인할 수 있었습니다.

 

통계에 대한 사전지식이 있는 분들이라면 좀 더 쉽게 볼 수 있을듯 합니다.

 

 

예전에는 회사에 다닌다고 하면, 자신의 일과 업무만 알면 되었습니다.

 

그런데 어느날 부터인가 회사에 다니고 사회생활을 한다고 하면,

 

마케팅에 대한 이해와 영업적인 마인드가 모든 사람이 갖춰야할 교양이라고

 

얘기하기 시작했습니다. 현대 사회의 흐름에서 꼭 필요한 능력이라는데

 

많은 분들이 공감할 것입니다.

 

이제 이 책을 읽고난 후에 느낀 것은,

 

지금 사회생활을 하는 사람들에게 필요한 능력이 바로

 

통계 리터러시를 갖는 것이라는 생각이었습니다.

 

이 책 한 권으로 통계에 대한 리터러시를 갖출 수는 없겠지만,

 

그에 대한 필요성을 알았다는 측면에서 매우 중요한 경험이 되었습니다.

 

 

빅데이터가 나오는 시대에 통계의 중요성과 사용법이 궁금한 분들에게

 

이 책이 좋은 안내서가 되리라 생각합니다.

 

 

 

 

 

 

 


 

평점 5/5점

 

개인적으로 빅데이터에 대해 접했던 것은 ebs 교육방송에서 손석희교수를 사회자로 하는 프로그램을

통해 미국대통령선거가 이 빅데이터를 잘 활용함으로 이루어졌다는 사실을 통해서다.

 

일반인들이 생각할 때는 정말 정렬되지 않는 무지막지한 용량의 데이터를 정보로 이용해서 파워화하는 그들의 현실이 말 그대로 서프라이즈였다.

그 연장선상에서 이 책은 나에게 무척이나 호기심을 유발시켰다.

 

저자는 빅데이터를 통계를 활용하여 사회혁신에 이바지하는 일들을 하는 통계학 전문가이기도 하다.

빅데이터는 우리가 상상할 수 없는 정도의 자료를 말한다.

페이스북, 트위터, 각종 SNS를 통한 각종 데이터가 어떻게 정렬 되는냐에 따라 그것은 세계적 파워로

변화, 활용될 수 있으며, 그것은 단지 이익이상의 파워로 될 수가 있는 것이다.

 

이 빅데이터는 통계학에 의해 지배된다는 것이며,

그 통계학에 대해 설명하며, 그 통계학의 발전상과 원리를 통해 우리 실생활과 산업에 그 얼마의 적정한 정보를 얻을 수 있는지를 소개한다.

 

특히 현대 통계학의 아버지로 알려진 천재 로널드 A. 피셔에 의해 개발된 임의화 통계학에 대해 자세히 소개한다.

통계학에는 전수검사와 샘플링 검사라는 것이 있을 수 있는데,

그 2가지의 장,단점에 대해서는 여러 효과를 말할 수 있겠으나 빅데이터를 이야기하는 면에서는 전수검사는 비용,효용가치 등에서 비효율적이라 하겠다.

어찌되었든 임의화는 샘플링 검사의 그 오류사항을 대체하는 통계방법이라고 할 수가 있다.

샘플링 검사를 하는 것중 어떻게 샘플링 검사를 하느냐에 따라 그 검사 자체가 오류를 품을 수 있는 것이라면 그것은 문제이다.

임의화는 그 오류를 말 그대로 어떠한 절차 없이 임의적 샘플링 검사를 시행함으로 발생할 수는 임의적 조건을 방지하는 것을 말할 수 있다.

 

임의화 통계에서도 보완이 필요한 부분이 있기는 하다.

사실 통계학에서 주의할 점은 여러가지가 있을 것이다.

윤리, 현실, 감정적인 면에서 문제가 예견된다면 그것은 아무리 무요류의 통계일지라도 안하는 것이 옳다.

예를들어 아마존닷컴에서 적정단가에 대한 임의화 통계를 시행했을 때, 최저단가와 그 이상의 단가를 적용해서 시험했다. 그 이상의 단가를 접하여 구매하는 소비자들에게 항의를 받았다.

 

곧바로 아마존닷컴은 사과하고 보상을 해 줌으로 위기를 모면했지만, 그런면에서 이 3가지는 통계학에서 주의해서 판단되어야할 부분이다.

 

통계학은 그 활용면이 무궁무진하다.

할 배리언 구글 수석 경제학자이자 미국 UC버클리대 교수는 '거듭 말하지만, 10년 이내에 통계가는 가장 섹시한 직업이 될 것이다'라고 하였다.

 

개인적으로도 워렌 버핏 회사의 핵심인재들은 경제학 전공자나 전문가가 아닌 통계학 전문가라고 알고 있다.

그저 감이나 경륜으로 이 거대한 세계와 정보를 판단하고 어떤 결정을 하는 것은 무모한 짓이다.

이제는 현실의 데이터를 분석하여 합리적이고, 타당한 결정을 해야 한다.

 

통계학은 앞으로도 그 발전성이 지속되고 있다.

그러면서도 그 활용면 또한 무궁무진하다. 특히 기업체의 활용도는 그 공격적이고, 적극적인 면이 상상을 초월하다.

 

우리의 일거수가 데이터화 되어 누군가에 의해 지금도 분석되어지고, 활용되어지고 있다는 것이다.

이것은 현실이다. 국가적 정보전쟁 이상의 현실 속에 우리는 이 빅데이터를 잘 활용함이 우선이구나라는 생각을

갖게 했다. 앞에서 언급한데로 통계학의 금물 3가지 조건을 상기할 필요가 있다. 

윤리, 현실성 그리고 감정.

 

 

 

 

 

 

 


 

 

평점 5/5점

 

통계와 디지털의 조우로 엄청난 변화가 우리 삶에 스며들고 있다. 운전자들은 패턴 분석으로 어디가

 

언제 자주 정체되는지 사전에 정보를 얻어 그 길목을 피해갈 수 있다. 대선 결과도 오차 분석 범위

 

95%~99%로 투표 종료 후 바로 예상치를 얻는 현실은 수 차례 목도했다. 통계의 힘이 이와 같이

 

우리 삶 곳곳에 자리잡은 이유는 연산능력의 엄청난 성장을 보인 컴퓨터와 우리 손에 쥐어진 노트북

 

수준의 핸드폰 덕분이라 할 수 있다. 이 책은 통계를 처음 접하는 사람들에게 어떤 종류의 통계학이

 

있으며, 그 통계가 어떤 용도로 쓰이는 지 소상한 정보를 전달하는 기능을 한다. 회귀분석은 추세를 뽑아내는

 

통계다. 중앙값의 기능을 하는 대표 선분을 기준으로 위 아래로 벌어진 정도로 각 값의 신뢰도를 파악한다.

 

롱테일의 법칙과 인구분포도도 이런 식으로 파악한다. 모든 정보를 정량화 할 수 없을 때, 계량화의 방편인

 

회귀분석법을 활용해 큰 그림을 그린다.  t검정은 회귀분석의 각 값에 신뢰도를 부여하는 대표값이다.

 

은행과 같이 자기자본 대비 위험한 자본의 값을 구하거나, 스트레스 테스트를 할 때도 통계학이 쓰인다.

 

표준편차와 분산은 통계학에선 쓰이지 않는 분야가 없다. 중앙값과 평균에 대한 오해도 정확한 값을 도출하는데

 

방해가 된다. 중앙값은 가장 빈번히 표본화된 수이고, 평균은 전체의 중간화 값이다.

 

 

 

데이터마이닝과 문헌, 텍스트의 만남은 재미난 작업과 예술을 탄생시키기도 했다. 책에서 가장 많이 사용된

 

단어 꾸러미를 확률화 작업을 거쳐, 이를 비쥬얼라이즈한 인포그래픽이 바로 그것이다. 구글의 등장으로

 

산발적인 값이 정량화를 통해 의미를 띠는 광경은 이제 벌써 과거가 되버렸다. 책의 표지도 신선하고 편집도

 

아주 상쾌하다. 출판사의 상당한 배려가 녹아있는 구성이다. 빅데이터로 인간이 어떤 사건 혹은 변화의 흐름을

 

짚어낼 수 있다는 점에서 통계는 앞으로도 그 유용성이 배가될 것이라고 확신한다. 이는 우리가 모두 통계를 알아야

 

경쟁력을 유지할 수 있음을 의미한다. 통계를 쉽게 해설하고 전혀 부담없는 구성과 독자의 의식 흐름을 고려한

 

통계의 힘을 적극 권한다. 

 

 

 

 

 



 


 

 

평점 4/5점

 

통계를 통해 미래를 그리자.

 

'빅데이터'의 출현은 그동안 '자료'와  '정보'를 분리하여 취급하던 우리의 생각을 바꾸어 놓았다.

 

불과 몇년 전만 하더라도 전혀 의미없는, 거의 쓰레기로 취급받던 '자료'들도 잘 가공하고, 분석하면 아주 좋은 '정보'가 될 수 있다는 것을 알아낸 것이다.

이런 자료는 무척 방대하고, 특정한 규칙을 따르지 않기에 정보로 만드는 과정이 결코 쉽지 않다.

 

이전부터 통계는 많은 정보를 만들어내는 아주 좋은 학문이였다.

다만 그때는 특정한 규칙을 따르는 데이터만을 사용하였기에 좀 더 분석의 방법이 쉬웠다(?).

IT의 발전은 보다 광범위하고, 불규칙한 데이터도 잘 가공하여 그 안에서 원하는 정보를 취득하기에 보다 용이하게 하였다.

 

저자는 이 책을 통해 '통계학'이 최강의 학문이라고 말하고 있다.

좀 오버한 듯하지만, 현제 통계학의 위치를 생각한다면 어느 정도 공감할 수 있을 듯 하다.

저자는 우리 주변에서 쉽게 알 수 있는 수많은 예를 들어 통계가 어떻게 쓰이는지, 그리고 어떻게 사용해야 하는지를 말하고 있다.

다만, 통계에 대한 지식이 전혀 없는 사람들에게는 가끔씩 등장하는 수학용어나 통계용어에 대한 이해가 쉽지 않을 듯 하다.

솔직히, '회귀분석'이라는 말을 평생 몇 번이나 들을 기회가 있을까? ㅎㅎㅎ

 

우리가 통계를 알아야 하는 이유는 무엇일까?

우리는 매순간순간을 '선택'을 하며 살아가고 있다.

본능적이라 펴현하는 체화된 경험이 그 선택을 보다 쉽게 해준다.

즉, 과거의 경험이 무엇이 '더' 좋은지를 알려주는 것이다.

바로 그것이 확률이고, 통계이다.

보다 나은 선택을 위해서라도 우리는 통계를 보다 정확하고, 자세히 이해할 필요가 있다.

 

주의할 점은 통계에 사용될 데이터를 통계 결과치보다 중요시 해야 한다는 점이다.

어떤 방법을 사용하느냐에 따라 통계 결과는 전혀 달라질 수 있다.

그렇기에 통계를 '승자의 학문'이라 하기도 한다.

통계는 '많은' 데이터가 중요한 것이 아니라, '정확한' 데이터가 중요하고, '올바른' 분석이 필요하다.

이 책을 통해 보다 광범위하게 사용되는 통계의 쓰임새를 봤고, 앞으로 더 발전하게 되는 학문임을 알았다.

통계 데이터를 추출하지는 못할지라도, 결과를 보고 어떻게 그 결과가 나왔는지를 이해할 수 있다면, 보다 나은 선택을 함에 있어 충분히 많은 도움이 될 것임에는 틀림없을 듯 하다.

 

 

 

 

 

 

 

 


 

평점 3/5점

 

정보의 시대이다.

 

누가 얼마만큼 정확하고 효과적인 정보를 보유하느냐, 그리고 이를 어떻게 이용하느냐에 따라 승자와 패자가 갈라진다.

 

상대방을 이기기 위해서는 상대방의 속마음을 들여다보는 것이 가장 좋은 방법이지만 이는 불가능한 일이다.

 

그러나 경쟁자의 행동과 습관 등의 데이타를 수집하고 통계와 같은 적절한 가공을 거친다면 상대방이 어떤 생각을 하고 있는지 알 수 있다.

 

이것이 빅데이타의 무서움이며 통계의 힘이다.

 

최근에는 빅데이터와 통계의 중요성이 빠르게 대두되고 있다.

 

또한 우리 주변에 쌓여가는 거대한 데이터를 통해 기존의 방식으로 답을 찾지 못했던 문제들을 풀어가는 새로운 시도가 계속되어 가고 있는데, 이는 컴퓨터의 발달로 인한 까닭이다.

 

컴퓨터가 생기기 이전, 그리고 컴퓨터의 처리속도가 지금처럼 빠르기 이전에 통계를 낸다는 것은 엄청나게 어려운 일이었다.

 

루즈벨트 대통령이 '뉴딜정책'을 수행하기 전에 어떤 정책을 세워야 하는가를 놓고 자료를 수집했었는데, 당시에는 통계를 처리하는 방법이 펀치를 뚫은 천공기계를 사용하는 방법 밖에 없어 5천명의 대상을 놓고 통계를 낸다는 것 조차도 참으로 버거운 일이었다.

 

그러나 20 나노급 DDR4가 양산되는 현실에서 5000명의 통계를 내는 것은 일반 가정에서도 할 수 있는 일반적인 일이 되어 버렸다.

 

통계가 드문 시절에는 단순한 집계 자료도 유용한 정보가 되었다. 그러나 지금은 그렇지 않다.

 

만약 회사에서 사내 교육을 했다고 하자. '교육이 업무에 많은 도움이 되었는가?'에 대한 단순한 질문에 대다수가 '그렇다'라는 대답을 했다고 하더라도 어떤 업무가 얼마만큼 향상되었는지 알지 못한다면 그것은 통계 자료로서 쓸모없는 것이다.

 

다음은 어떤 음식에 대한 설명이다. 그 음식을 금지해야 하는지 생각해 보자

 

* 심근경색으로 사망한 일본인의 95% 이상이 이 음식을 먹었다.

* 강도, 살인범의 70% 이상이 범행 전 24시간 내 이 음식을 먹었다.

* 일본인에게 섭취를 금지하면 정신적 스트레스를 조장한다.

* 에도시대 이후 일본에서 발생한 폭동의 대부분은 이 음식이 원인이다.

 

이 음식은 다름 아닌 밥이다.

그러나 자료만을 보면 '밥'을 금지해야 한다는 결론이 내려질 수 있다.

 

이처럼 통계는 유용한 정보가 될 수 있지만, 잘못된 해석은 잘못된 판단을 이끌어 낼 수 있다.

칼이 의사에게 주어지면 사람을 살리는 메스가 되고, 주부에게 주어지면 가정을 행복하게 만드는 음식을 위한 칼이 된다.

그러나 강도에게 주어지면 사람을 죽이는 칼이 되듯 통계를 어떻게 운용함에 따라 그 결과가 달라질 것이다.

 

이 책은 통계에 관한 내용을 담고 있다.

 

앞쪽에는 비교적 가벼운 내용을 담고 있어 쉽게 책장을 넘길 수 있지만, 뒤로 갈수록 전문적인 용어로 인해 이해하는데 조금의 어려움이 있다.

 

통계의 유용성과 이를 공부해야 하는 동기를 이끌어 줄만한 책이지만, 통계에 관한 기초적인 이해가 없는 사람은 어려울 수 있다.


 

댓글