[ADsP] 과목1. 데이터 이해

11 분 소요

Index

1장 데이터의 이해

  • 데이터 정의 이해
  • DB 정의 & 특징 이해
  • DB 활용 이해

1.1 데이터와 정보

데이터

: 추론과 추정의 근거를 이루는 객관적 사실

데이터의 종류

  • 정성적 데이터 (qualitative data)
    언어, 문자 형태의 데이터 => 저장/검색/분석에 고비용/기술 필요
  • 정량적 데이터 (quantitative data)
    수치, 도형, 기호 형태의 데이터

지식의 종류

  • 암묵지 (Tacit Knowledge)
    사람/조직 내에 체득된 무형의 지식
  • 형식지 (Expliit Knowledge)
    문서/매체 등으로 형상화된 지식

지식의 상호작용

1) 내면화 (Internalization): 시행착오/경험 -> 암묵지(개인)
2) 표출화 (Externalization): 암묵지 -> 형식지 3) 연결화 (Combination): 형식지 + 지식/경험* -> 형식지*
4) 공통화 (Socialization): 형식지* 내면화 반복/순환 -> 암묵지(조직) 증대

DIKW 지식의 피라미드

  • Data: 단순 수치, 기호
  • Info: 가공/패턴/상관관계 이해해 의미 도출
  • Knowledge: 여러 정보 구조화 + 경험과 결합해 내재화
  • Wisdom: 축적된 지식 + 창의적 idea => 가치창출

ex)
데이터: A마트는 연필 100원, B마트는 200원에 판매한다
정보: A마트 연필이 더 싸다
지식: 저렴한 A마트에서 연필 사야겠다
지혜: A마트의 다른 상품도 B마트보다 저렴할 것이다

1.2 DB의 정의와 특징

DB 의 정의

  • 여러 콘텐츠를 정보처리/통신 기기로 체계적 수집/축적
    => 다양한 활용 가능하도록 정리한 정보 집합
  • 독립된 저작물(EU)
  • 소재 체계적 배열/구성한 검색 가능한 편집물 (저작권법)

** 콘텐츠: 문자, 음성, 영상 등 의미전달 매체로 표현된 모든 자료

DB의 특성

  • 통합성 Integrated: 중복되지 않는 통합된 자료
  • 저장성 Stored: 정보 저장
  • 공통성 Shared: 여러 유저 공유, 복잡함
  • 변화성: 변화하지만 정확해야(무결성, CRUD)
  • 기계가독성
  • 검색가능성
  • 원격조작성
  • 신속/경제적
  • 체계적 축적/관리
  • 정보/네트워크/인프라 기술 선도

** CRUD: Create, Read, Update, Delete
** DBMS: DB 관리하는 유저 인터페이스 시스템

1.3 DB의 활용

기업의 DB 활용

: 기업내부 DB(In-House DB)는 OLTP 에서 OLAP로, 2000년 부터는 CRM & SCM 중심으로 발전

  • OLTP(단순/자동화 수집 시스템: Online Transaction Processing)
  • OLAP(분석중심 시스템: Online Analytical Processing)
  • CRM(고객관계관리) + SCM(공급망관리)

=> 유통/판매/고객 데이터 분석 및 연계 증가

부문별 DB 활용 방식 (기업)

  • 제조부문

    기존 현재
    부품/재고 모든 영역
    기업별S/W 솔루션
    내부서버 시스템
    ERP SCM
    대기업 중소기업(RTE)
  • 금융부문

    시기 활용방식
    2000년대 EAI, ERP, e-CRM으로 정보통합 & 고객정보 전략적 활용
    2000 중반 인터넷뱅킹/방카슈랑스 도입후, 대규모 DW 위한 BI 기반 시스템 구축
    현재 다운사이징 & 바젤2(최저자기자본규제) 등으로 EDW 확장 예상
  • 유통부문

    시기 활용방식
    2000년대 CRM + SCM 으로 지역/고객중심 운영
    2000중반 전자문서/상거래 인프라 & KMS(지식관리시스템) 백업 구축
    현재 RFID(전자태그) 이용 증가 => 대용량 DB 지원 필요 예상
    현재 고객분석 툴 이용 증가
    : BSC(균형성과관리), KPI(핵심성과지표), 웹 리포팅

** BI: Bus. Intelligence (데이터기반 의사결정 지원, 리포팅 중심)
** DW: Data Warehouse
** EAI: Enterprise Apps Integration
** EDW: Enterprise Data Warehouse
** RTE: Real Time Enterprise

사회기반구조로서의 DB 활용

시기 활용방식
90년대 SOC(사회간접자본)의 EDI(전자문서교환)증가로 VAN/DB 구축
90중반 EDI/CALS 벗어나 지리/교통DB 구축
2000년대 기존 DB 고도화, 공공 DB 확대, 인터넷 보편화
현재 “사회 전반의 기간재”, 공공데이터 개방, 민간용 증가

** CALS: Commcerce at Light Speed
** EDI: Electronic Data Interchange
** SOC: Social Overhead Capital

부문별 DB 활용 방식 (사회기반구조)

  • 물류부문

    시기 활용방식 상세
    98년 종합물류정보망 구축 CVO(화물운송정보) + EDI + DB서비스 + 부가서비스
    2000년대 유관전산망 연계 종합물류정보망 + 항만/철도/항공/터미널망 + 무역/통관자동화망 + 민간물류VAN
    현재 종합물류정보망 이용 확대/활성화 물류거점 정보화, 인터넷 기반 DB제공, 전자태그 사업

    ** CVO: Commercial Vehicle Operation System

  • 지리부문

    시기 시스템 활용방식
    95년 NGIS(국가지리정보체계) 국가지형도/공통주제도/지하매설물도 전산화
    2000년 국가 수치지형도 4S통합기술 (GIS+RS+GPS+ITS), LBS, SIM
    2005년 LMIS(토지종합정보망) 수치지형도 수정/갱신, 국가기준점 정비, 지적도면 전산화
    현재 지리정보통합관리소 기관/기업/국민 대상 정보유통사업 관리/확장, 대국민서비스 강화

    ** GPS: Global Positioning System
    ** ITS: Intelligent Transport System
    ** LBS: Location Based Service
    ** NGIS: National Geographic Info System
    ** RS: Resmote Sensing
    ** SIM: Spatial Info System

  • 교통부문

    종류 활용방식
    동적(실시간)교통정보 ITS(지능형교통시스템), 방송매체의 교통정보
    정적(비실시간)교통정보 전국교통DB(기초자료, 통계 등)
    => 정책수립, 교통조사/분석 중복방지
  • 의료부문

    시기 활용방식 상세
    96년 의료정보망 구축 의료EDI 상용서비스
    2000년대 의료정보시스템 본격화 처방전달시스템 + 전자의무기록 + PACS(영상처리시스템) + 원격의료 등
    2005년 HL7 표준화 전국적 진료정보 공유체계 구축 (계획)
    05년 이후 u-헬스 의료정보DB 기반 서비스
    현재 환자중심 서비스 환자 중심 병원, ABC, BSC, 6시그마 도입 등

    ** ABC: Activity Based Costing
    ** BSC: Balanced Score Card
    ** HL7: 국제 의료정보 전송 표준 (Health Level 7)
    ** PACS: Picture Archiving & Comm System
    ** uー헬스: ubiquitous-Health

  • 교육부문

    시기 활용방식 상세
    97~00년 교육정보화종합계획(1단계) 정보소양교육
    01~05년 교육정보화종합계획(2단계) 교육정보개발/보급, 정보활용교육, 대학/교육행정정보화
    2002년 전국교육정보공유체제 교육청/산하기관/학교 보유 교육자료 표준/체계화 후 공동활용
    2003년 NEIS(교육행정정보시스템) 학사/인사/물품/회계 등 교육행정 전 업무처리

    ** NEIS: National Education Info System


2장 데이터의 가치 & 미래

  • 빅데이터의 정의 & 기능 이해
  • 빅데이터로 인한 변화 이해
  • 빅데이터의 가치 & 영향 이해
  • 빅데이터 비즈니스 모델 이해
  • 빅데이터로 인한 위기요인 & 통제방안 이해
  • 미래의 빅데이터 이해

2.1 빅데이터의 이해

빅데이터의 정의

: 기존의 작은 데이터 처리분석으로 얻을 수 없던 통찰/가치 창출하는 새로운 방식

정의 범주 상세
데이터 변화 3V(규모/형태/속도) 증가
기술변화 처리/저장/분석 기술 & 아키텍처 변화
클라우드 컴퓨팅 활용
인재/조직 변화 데이터 과학자 등 새로운 인재
데이터 중심 조직

=> 새로운 통찰/가치 창출 & 여러 분야 변화/혁신 주도

** 3V: Volume + Variety +Velocity

빅데이터의 출현 배경

분야 배경 사례
산업계 고객 데이터 축적
=> 가치창출 가능한 규모 도달
ex) Tesco, Acxiom
학계 빅데이터 다루는 프로젝트 증가
=> 도구/기술 발전 가속화
ex) 게놈 프로젝트
기술 디지털화/저장기술
클라우드 컴퓨팅 (분산처리)
인터넷 확산 (로그)
모바일혁명
ex) 맵리듀스
사용자 광고 매칭
SNS, 스마트폰 상황정보
** 빅데이터 비용 감소
분산처리기술이 결정적 비용 감소 요인
** 맵리듀스 (MapReduce)
Map(키-값으로 데이터 묶음/분류) + Reduce (필요 데이터만 추출)

MapReduce Process

ICT 발전과 빅데이터 출현

시기 기술/환경 데이터 형태 데이터규모
80년대 메인프레임 구조화/정형 데이터 -
~ 2000년 PC/인터넷 - 100 EB ~
~ 2010년 Mobile/SNS 복합/소셜/비정형 데이터 ZB진입
~ 2020년 IoT/AI 사물/인지/현실/실시간 정보 ZB본격화
(빅데이터 시대)

** PB (Petta) < EB(Exa) < ZB(Zetta) < YB(Yotta Byte)

빅데이터의 기능

: 차세대 산업혁신의 에너지원/렌즈/플랫폼으로 기능하는 필수 요소

기능 상세 사례/전망
에너지원 생산성 향상
필요정보 제공
새로운 산업
사회/경제/문화에 혁명적 변화
렌즈 메커니즘/구조 파악
=> 새로운 통찰 제공
ex) 구글 Ngram Viewer
(US 단수/복수형 빈도)
플랫폼 공동활용 구조물
=> 여러 사업자에 기회 제공
ex) FB 서드파티앱, 공개 API

** API: Application Program Interface => 특정 데이터 접근/이용 양식

빅데이터 확산으로 인한 근본적 변화

1) 사전처리 -> 사후처리

  • 데이터 관리/처리능력 증가 => 선별 불필요
  • 최대한 많은 데이터 수집/조합 => 숨은 정보 발견

2) 표본조사(Sampling) -> 전수조사

  • 수집/처리비용 감소
  • 통계도구 증가
  • 전수 데이터의 정밀성/활용융통성
    ex) 출구조사 vs 선거집단

3) 질 -> 양

  • 데이터 입력량 급증 => 오류 영향 감소
  • 제외사례 활용가능 => 추출 가치 증가
    ex) 구글 vsIBM 번역

4) 인과관계 (Causaiton) -> 상관관계 (Correlation)

  • 이론적 인과 덜 중요 => 신속/실시간 상관관계 이용
    ex) Aviva 보험 (검진 -> 설문)

2.2 빅데이터의 가치 & 영향

빅데이터 가치산정의 어려움

1) 활용맥락/주체 특정 어려움

  • 데이터 재사용/재조합(mash up) => 새로운 가치
    ex) 덴마크 전자파-중추신경계 종양 연구
  • 상황에 따라 다목적으로 이용 가능
    ex) CCTV -> 절도/구매 정보

2) 새로운 가치창출

  • 기존 사례/기준 없어 가치의 평가/측정 어려움
    ex) 킨들 독서패턴, FB 소셜그래프

3) 분석기술 발달

  • 분석 못하던 데이터 분석/활용 가능
    ex) SNS

** 기존 기업에 경쟁우위 부여 => 주식에 평가 안 됨 ex) 구글, FB

빅데이터 가치창출 방식 (맥킨지, 2011)

1) 투명성 증가 => 연구/관리 효율성 증가
2) 시물레이션으로 수요포착/변수탐색 => 경쟁력 증가
3) 고객 세분화 + 맞춤형 서비스
4) 알고리즘으로 의사결정 보조/대체
5) 비즈니스 모델/제품/서비스 혁신

빅데이터의 영향

  • 기업: 혁신 / 경쟁력강화 / 생산성 향상
  • 정부: 환경탐색 / 상황분석 / 미래대응 수단 제공
  • 개인: 생활전반 스마트화, 일부 직접 활용 (정치인, 가수)

2.3 비즈니스 모델

빅데이터 활용사례

  • 기업
    • 구글 PageRank
    • 월마트 구매패턴 분석
    • IBM의 Watson (의료 AI)
  • 정부
    • 교통/기후정보 수집
    • 의료/교육 개선
    • NSA의 SNS/CCTV/문자통화기록 분석
  • 개인
    • 정치인 유세지역 선정
    • 가수 청취기록 분석

** NSA: US National Security Agency

빅데이터 활용 기본 테크닉

명칭 상세
연관규칙 학습
Association Rule Learning
변인 간 상관관계 분석
유형 분석 Classification Tree 기존자료로 훈련분류틀 만들어 새 사건 분류
유전 알고리즘
Genetic Algorithms
최적화 문제를 진화 메커니즘으로 해결
ex) 자연선택, 돌연변이
기계학습 Machine Learning 데이터학습 => 특성파악 => 예측
회귀분석 Regression Analysis 독립/종속변수 관계 파악
감정분석 Sentiment Analysis 고객의 평가/요구 파악
소셜 네트워크 분석 소셜관계/오피니언 리더 파악

2.4 위기요인 & 통제방안

빅데이터 위기요인

요인 상세 사례
사생활 침해 M2M 시대
(정보수집 센서 증가)
ex) 스마트 미터,
익명화 데이터
책임원칙 훼손 행위결과 아닌
분석/예측결과로 판단
ex) 채용, 소송, 대출
데이터 오용 데이터 과신
잘못된 지표
ex) 베트남전 적군 사망자 수

** M2M: Machine to Machine

빅데이터 위기요인 통제방안

요인 통제방안
사생활 침해 정보 제공 동의제 => 사용자 책임제
책임원칙 훼손 예측자료로 인한 불이익 최소화 장치 도입
데이터 오용 알고리즘 접근권 + 객관적 인증방안 도입

소비자 프라이버시 보호 3대 권고사항 (FTC:미 연방거래위원회)

  • Privacy by Design
    상품 개발단계부터 프라이버시 보호방안 적용
  • Simplified Choice for Bus. & Customer
    간결한 정보공유 옵션 제공
  • Greater Transparency
    사용자에게 수집된 정보 공개 & 접근권 부여

2.5 미래의 빅데이터

  • 데이터
    • 모든 것의 데이터화(Datafication)
      ex) IoT, 웨어러블, 센서 네트워크
  • 기술
    • 빅데이터 분석 알고리즘의 진화

      ex) 구글 검색엔진 개인화, 넷플릭스 추천 알고리즘

    • 인공지능이 빅데이터 분석
      => 패턴인식/자연어/자동제어/자동추론/지능엔진/시멘틱 웹 분야

      ex) 구글X의 인공신경망 고양이 스스로 학습, 왓슨의 퀴즈대회 우승

  • 인력
    • 데이터과학자
      빅데이터 이론 지식 + 숙련된 분석기술 + 통찰력/전달력/협업능력 갖춘 전문인력
      => 빅데이터 가치 극대화
    • 알고리즈미스트(Algorithmist)
      기술/비즈니스 이해 + 알고리즘 해석 가능한 전문직
      => 빅데이터 알고리즘으로 발생한 피해 중재 & 해결

3장 가치창조를 위한 데이터 사이언스

  • 빅데이터 분석 현황 & 현단계 과제 이해
  • 전략적 가치 기반 분석 이해
  • 데이터 과학의 의미 & 역할 이해
  • 데이터 과학자의 요구 역량 이해
  • 전략적 통찰 & 인문학 대두 배경 이해
  • 데이터 과학자에게 요구되는 인문학적 사고 이해
  • 데이터 과학의 미래에 대한 이해

3.1 빅데이터 분석 & 전략 인사이트

빅데이터 열풍과 회의론

: 2013년 기점으로 회의론 증가
ex) 기존 CRM 분석과 비슷, 통찰/기술 미비

데이터 분석과 경영의사결정 사례

  • 싸이월드 vs FB
    데이터 수집/분석을 의사결정에 포함시키지 않은 싸이월드는 쇠락
  • 링크드인 People You May Know 서비스
    데이터과학자 골드만 교수가 개발한 인맥 추천 서비스 => 뷰 급증

분석기반 경영의 장애물 (하라스 엔터테이먼트 러브먼 회장)

  • 관행 중시
    기존 관행 따르고 중요한 시도 안 함
  • 직관 중시
    경영진 의사결정에 필요한 건 정확/공정한 분석이 아니라 직관이라 여김
  • 분석인재 부족
    분석 능한 사람 희박 => 지식/능력 부족한 사람이 분석업무 맡음
  • 아이디어 주인에 더 관심
    아이디어 내용보다 아이디어 낸 사람에게 관심 두는 경향

=> 비용은 주된 장애물 아님!

빅데이터 분석의 핵심

: 데이터 크기/양 보다 비즈니스 핵심에 대한 객관/종합적 통찰이 중요

  • 전략/핵심가치에 집중
  • 관련 분석 평가지표 개발
  • 분석 토대로 시장/고객변화에 대응

ex) 버텍스의 신약 연구개발 분석, 삼성 콜센터의 음성 텍스트 분석

분석지향성 중요도 조사 (데이븐포트, 분석의 기술)

  • 양질의 데이터기반 구축 => 경영진의 데이터/시스템 활용 의사결정 증가
  • 분석지향성이 강할수록 사업성과/재무성과 높음
  • 평균이상의 분석역량 갖췄다는 우수기업(77%)도 가치분석적 통찰력 미비 (36%)

데이터 분석의 함정

: 핵심경쟁전략에 집중해야 분석으로 경쟁우위 취득 가능

  • 단순한 사업모델
  • 넓은 시야(부서 단위 X)
  • 핵심 비즈니스 이슈 분석

ex) 아메리칸 항공 vs 사우스웨스트 항공

일차적인 분석 vs 가치기반 분석

분석종류 활용방식 효과
일차적인 분석 특정 부서/업무영역 최적화 업계경쟁력 유지
분석 경험 증가
가치기반 분석 핵심가치/요소/사회트렌드 분석해
전략적 인사이트 도출
중요기회 발굴
주요 경영진 지원 취득
=> 강한 모멘텀

=> 일차적인 분석으로 경험 늘려 더 넓고 전략적인 가치기반 분석으로 나아가야

  • 물리자산 생산 기업
    공급/수요변동, 운영유연성, 공급사슬에 집중
  • 품질/지적자산 관련 기업
    분석적 실험, 의사결정에 집중
    ex) 제약회사
  • 인터넷/가치 네트워크 기반 회사
    고객/서비스 네트워크에 집중
    ex) 금융기관, 통신회사

3.2 전략 인사이트 도출 위한 필요 역량

데이터 사이언스의 의미 & 역할

: 데이터로부터 의미있는 정보 추출하는 학문

  • 정형/비정형 막론 다양한 데이터 이용
  • 분석을 넘어 통찰/전달하는 총체적 접근방식

=> 전략적 통찰로 핵심 비즈니스 이슈 해결 & 사업성과 견인

데이터 사이언스 핵심구성요소

1) IT기술 영역

  • 데이터 처리 기술
  • 프로그래밍
  • 데이터 엔지니어링/웨어하우징

2) 분석 영역

  • 수학
  • 확률모델
  • 머신러닝
  • 패턴학습

3) 비즈니스 컨설팅 영역

  • 커뮤니케이션
  • 프레젠테이션
  • 스토리텔링
  • 시각화

데이터 사이언스티스트의 요구역량

1) 하드 스킬

  • 이론적 지식 : 관련 기법 이해 & 방법론
  • 분석기술 숙련 : 최적의 분석설계 & 노하우

    2) 소프트 스킬

  • 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
  • 설득력 있는 전달 : 스토리텔링, 시각화 능력
  • 다분야간 협력 : 커뮤니케이션 능력

데이터 사이언스: 과학과 인문학의 교차로

: 통찰력 있는 분석 하려면 과학적 지식 &인문학적 소양(=소프트 스킬) 모두 필요

  • 회사/업계에 대한 큰 그림
  • 고객의 미래 요구에 대한 비전

ex) 애플 신제품 발표회, FB/구글의 인문학 전공자 채용

빅데이터와 인문학 열풍의 공통 배경

: 산출물 + 소비자의 재미/편의 이해 필요 => 인문학적 통찰 필요

1) 단순한 세계화 -> 복잡한 세계화

  • 기존
    • 글로벌 효율/규모의 경제
    • 표준화/이성화
    • 신흥국=생산, 선진국=시장
  • 현재
    • 다양성
    • 사회 정체성
    • 맥락/관계/연결성/창조성
    • 신흥국 = 생산 + 시장

2) 제품생산 중심 -> 서비스 중심 비즈니스

  • 기존 : 효용경제 => 품질중시
  • 현재 : 체험경제 => 고객 관계/소통 중요

3) 생산 -> 시장창조 경제

  • 기존
    품질=경쟁력 => 공급자 중심의 기술경쟁
  • 현재 : 현지화 패러다임 => 암묵/함축적 지식 중요

인문학의 요체

: 지식의 정리가 아닌 집요하게 <왜>를 따지는 것

  • 질문 찾기
  • 문제의 이면 파고 들기
  • 가설 세워 검증

분석이 다루는 핵심문제

  과거 현재 미래
정보활용 일어난 일
=> 리포팅
일어나고 있는 일
=> 경고
일어날 일
=> 패턴추출
통찰제시 왜/어떻게
=> 모델/실험
차선행동
=> 효과적 권고
최악/최선 상황
=> 예측/최적화/시뮬레이션

데이터 사이언티스트의 역할

: 강한 호기심 -> 질문 + 검증 반복 -> 합리적 추론(정량분석 + 인문학적 통찰)

인문학적 퉁찰력 적용 사례

ex) 신용리스크 모델
인간을 바라보는 관점에 따라 필요 데이터/기술 달라짐 => 새로운 가치/혁신
  • 성향적 관점
  • 행동적 관점
  • 상황적 관점

3.3 빅데이터 & 데이터 사이언스의 미래

빅데이터의 시대

: 데이터량/활용 다양성 급증
ex) 선호 워크숍 종류, 오바마 캠프의 The Cave 팀

지식경제 시대의 가치 패러다임 변화

  • 디지털화 eX) 운영프로그램, 오피스
  • 연결 ex) 구글 검색 서비스, 네이버
  • 에이전시
    빅데이터 신속/정확히 처리해 하이퍼연결을 효율/효과적 관리하는 에이전시 필요

데이터 사이언스의 한계와 인문학

  • 인간의 해석 개입
    분석결과 해석에 따라 결론 달라짐
  • 모델 내에서만 정확
    수집된 데이터와 근거된 가정 아래에서만 정확 => 모델 바깥 요인 판단 불가

데이터 사이언티스트의 자세

: 데이터 사이언스의 한계 직시하고 인문학자처럼 고찰 필요

  • 모델의 능력에 항상 의구심 갖기
  • 가정들과 현실의 불일치 고찰
  • 모델이 예측 못하는 위험 살피기
  • 경험과 현실세상에 대한 통찰력 활용