[ADsP] 과목1. 데이터 이해
Index
- 1장 데이터의 이해
- 2장 데이터의 가치 & 미래
- 3장 가치창조를 위한 데이터 사이언스
1장 데이터의 이해
- 데이터 정의 이해
- DB 정의 & 특징 이해
- DB 활용 이해
1.1 데이터와 정보
데이터
: 추론과 추정의 근거를 이루는 객관적 사실
데이터의 종류
-
- 정성적 데이터 (qualitative data)
- 언어, 문자 형태의 데이터 => 저장/검색/분석에 고비용/기술 필요
-
- 정량적 데이터 (quantitative data)
- 수치, 도형, 기호 형태의 데이터
지식의 종류
-
- 암묵지 (Tacit Knowledge)
- 사람/조직 내에 체득된 무형의 지식
-
- 형식지 (Expliit Knowledge)
- 문서/매체 등으로 형상화된 지식
지식의 상호작용
1) 내면화 (Internalization): 시행착오/경험 -> 암묵지(개인)
2) 표출화 (Externalization): 암묵지 -> 형식지
3) 연결화 (Combination): 형식지 + 지식/경험* -> 형식지*
4) 공통화 (Socialization): 형식지* 내면화 반복/순환 -> 암묵지(조직) 증대
DIKW 지식의 피라미드
- Data: 단순 수치, 기호
- Info: 가공/패턴/상관관계 이해해 의미 도출
- Knowledge: 여러 정보 구조화 + 경험과 결합해 내재화
- Wisdom: 축적된 지식 + 창의적 idea => 가치창출
ex)
데이터: A마트는 연필 100원, B마트는 200원에 판매한다
정보: A마트 연필이 더 싸다
지식: 저렴한 A마트에서 연필 사야겠다
지혜: A마트의 다른 상품도 B마트보다 저렴할 것이다
1.2 DB의 정의와 특징
DB 의 정의
- 여러 콘텐츠를 정보처리/통신 기기로 체계적 수집/축적
=> 다양한 활용 가능하도록 정리한 정보 집합 - 독립된 저작물(EU)
- 소재 체계적 배열/구성한 검색 가능한 편집물 (저작권법)
** 콘텐츠: 문자, 음성, 영상 등 의미전달 매체로 표현된 모든 자료
DB의 특성
- 통합성 Integrated: 중복되지 않는 통합된 자료
- 저장성 Stored: 정보 저장
- 공통성 Shared: 여러 유저 공유, 복잡함
- 변화성: 변화하지만 정확해야(무결성, CRUD)
- 기계가독성
- 검색가능성
- 원격조작성
- 신속/경제적
- 체계적 축적/관리
- 정보/네트워크/인프라 기술 선도
** CRUD: Create, Read, Update, Delete
** DBMS: DB 관리하는 유저 인터페이스 시스템
1.3 DB의 활용
기업의 DB 활용
: 기업내부 DB(In-House DB)는 OLTP 에서 OLAP로, 2000년 부터는 CRM & SCM 중심으로 발전
- OLTP(단순/자동화 수집 시스템: Online Transaction Processing)
- OLAP(분석중심 시스템: Online Analytical Processing)
- CRM(고객관계관리) + SCM(공급망관리)
=> 유통/판매/고객 데이터 분석 및 연계 증가
부문별 DB 활용 방식 (기업)
-
제조부문
기존 현재 부품/재고 모든 영역 기업별S/W 솔루션 내부서버 시스템 웹 ERP SCM 대기업 중소기업(RTE) -
금융부문
시기 활용방식 2000년대 EAI, ERP, e-CRM으로 정보통합 & 고객정보 전략적 활용 2000 중반 인터넷뱅킹/방카슈랑스 도입후, 대규모 DW 위한 BI 기반 시스템 구축 현재 다운사이징 & 바젤2(최저자기자본규제) 등으로 EDW 확장 예상 -
유통부문
시기 활용방식 2000년대 CRM + SCM 으로 지역/고객중심 운영 2000중반 전자문서/상거래 인프라 & KMS(지식관리시스템) 백업 구축 현재 RFID(전자태그) 이용 증가 => 대용량 DB 지원 필요 예상 현재 고객분석 툴 이용 증가
: BSC(균형성과관리), KPI(핵심성과지표), 웹 리포팅
** BI: Bus. Intelligence (데이터기반 의사결정 지원, 리포팅 중심)
** DW: Data Warehouse
** EAI: Enterprise Apps Integration
** EDW: Enterprise Data Warehouse
** RTE: Real Time Enterprise
사회기반구조로서의 DB 활용
시기 | 활용방식 |
---|---|
90년대 | SOC(사회간접자본)의 EDI(전자문서교환)증가로 VAN/DB 구축 |
90중반 | EDI/CALS 벗어나 지리/교통DB 구축 |
2000년대 | 기존 DB 고도화, 공공 DB 확대, 인터넷 보편화 |
현재 | “사회 전반의 기간재”, 공공데이터 개방, 민간용 증가 |
** CALS: Commcerce at Light Speed
** EDI: Electronic Data Interchange
** SOC: Social Overhead Capital
부문별 DB 활용 방식 (사회기반구조)
-
물류부문
시기 활용방식 상세 98년 종합물류정보망 구축 CVO(화물운송정보) + EDI + DB서비스 + 부가서비스 2000년대 유관전산망 연계 종합물류정보망 + 항만/철도/항공/터미널망 + 무역/통관자동화망 + 민간물류VAN 현재 종합물류정보망 이용 확대/활성화 물류거점 정보화, 인터넷 기반 DB제공, 전자태그 사업 ** CVO: Commercial Vehicle Operation System
-
지리부문
시기 시스템 활용방식 95년 NGIS(국가지리정보체계) 국가지형도/공통주제도/지하매설물도 전산화 2000년 국가 수치지형도 4S통합기술 (GIS+RS+GPS+ITS), LBS, SIM 2005년 LMIS(토지종합정보망) 수치지형도 수정/갱신, 국가기준점 정비, 지적도면 전산화 현재 지리정보통합관리소 기관/기업/국민 대상 정보유통사업 관리/확장, 대국민서비스 강화 ** GPS: Global Positioning System
** ITS: Intelligent Transport System
** LBS: Location Based Service
** NGIS: National Geographic Info System
** RS: Resmote Sensing
** SIM: Spatial Info System -
교통부문
종류 활용방식 동적(실시간)교통정보 ITS(지능형교통시스템), 방송매체의 교통정보 정적(비실시간)교통정보 전국교통DB(기초자료, 통계 등)
=> 정책수립, 교통조사/분석 중복방지 -
의료부문
시기 활용방식 상세 96년 의료정보망 구축 의료EDI 상용서비스 2000년대 의료정보시스템 본격화 처방전달시스템 + 전자의무기록 + PACS(영상처리시스템) + 원격의료 등 2005년 HL7 표준화 전국적 진료정보 공유체계 구축 (계획) 05년 이후 u-헬스 의료정보DB 기반 서비스 현재 환자중심 서비스 환자 중심 병원, ABC, BSC, 6시그마 도입 등 ** ABC: Activity Based Costing
** BSC: Balanced Score Card
** HL7: 국제 의료정보 전송 표준 (Health Level 7)
** PACS: Picture Archiving & Comm System
** uー헬스: ubiquitous-Health -
교육부문
시기 활용방식 상세 97~00년 교육정보화종합계획(1단계) 정보소양교육 01~05년 교육정보화종합계획(2단계) 교육정보개발/보급, 정보활용교육, 대학/교육행정정보화 2002년 전국교육정보공유체제 교육청/산하기관/학교 보유 교육자료 표준/체계화 후 공동활용 2003년 NEIS(교육행정정보시스템) 학사/인사/물품/회계 등 교육행정 전 업무처리 ** NEIS: National Education Info System
2장 데이터의 가치 & 미래
- 빅데이터의 정의 & 기능 이해
- 빅데이터로 인한 변화 이해
- 빅데이터의 가치 & 영향 이해
- 빅데이터 비즈니스 모델 이해
- 빅데이터로 인한 위기요인 & 통제방안 이해
- 미래의 빅데이터 이해
2.1 빅데이터의 이해
빅데이터의 정의
: 기존의 작은 데이터 처리분석으로 얻을 수 없던 통찰/가치 창출하는 새로운 방식
정의 범주 | 상세 |
---|---|
데이터 변화 | 3V(규모/형태/속도) 증가 |
기술변화 | 처리/저장/분석 기술 & 아키텍처 변화 클라우드 컴퓨팅 활용 |
인재/조직 변화 | 데이터 과학자 등 새로운 인재 데이터 중심 조직 |
=> 새로운 통찰/가치 창출 & 여러 분야 변화/혁신 주도
** 3V: Volume + Variety +Velocity
빅데이터의 출현 배경
분야 | 배경 | 사례 |
---|---|---|
산업계 | 고객 데이터 축적 => 가치창출 가능한 규모 도달 |
ex) Tesco, Acxiom |
학계 | 빅데이터 다루는 프로젝트 증가 => 도구/기술 발전 가속화 |
ex) 게놈 프로젝트 |
기술 | 디지털화/저장기술 클라우드 컴퓨팅 (분산처리) 인터넷 확산 (로그) 모바일혁명 |
ex) 맵리듀스 사용자 광고 매칭 SNS, 스마트폰 상황정보 |
- ** 빅데이터 비용 감소
- 분산처리기술이 결정적 비용 감소 요인
- ** 맵리듀스 (MapReduce)
- Map(키-값으로 데이터 묶음/분류) + Reduce (필요 데이터만 추출)
ICT 발전과 빅데이터 출현
시기 | 기술/환경 | 데이터 형태 | 데이터규모 |
---|---|---|---|
80년대 | 메인프레임 | 구조화/정형 데이터 | - |
~ 2000년 | PC/인터넷 | - | 100 EB ~ |
~ 2010년 | Mobile/SNS | 복합/소셜/비정형 데이터 | ZB진입 |
~ 2020년 | IoT/AI | 사물/인지/현실/실시간 정보 | ZB본격화 (빅데이터 시대) |
** PB (Petta) < EB(Exa) < ZB(Zetta) < YB(Yotta Byte)
빅데이터의 기능
: 차세대 산업혁신의 에너지원/렌즈/플랫폼으로 기능하는 필수 요소
기능 | 상세 | 사례/전망 |
---|---|---|
에너지원 | 생산성 향상 필요정보 제공 새로운 산업 |
사회/경제/문화에 혁명적 변화 |
렌즈 | 메커니즘/구조 파악 => 새로운 통찰 제공 |
ex) 구글 Ngram Viewer (US 단수/복수형 빈도) |
플랫폼 | 공동활용 구조물 => 여러 사업자에 기회 제공 |
ex) FB 서드파티앱, 공개 API |
** API: Application Program Interface => 특정 데이터 접근/이용 양식
빅데이터 확산으로 인한 근본적 변화
1) 사전처리 -> 사후처리
- 데이터 관리/처리능력 증가 => 선별 불필요
- 최대한 많은 데이터 수집/조합 => 숨은 정보 발견
2) 표본조사(Sampling) -> 전수조사
- 수집/처리비용 감소
- 통계도구 증가
- 전수 데이터의 정밀성/활용융통성
ex) 출구조사 vs 선거집단
3) 질 -> 양
- 데이터 입력량 급증 => 오류 영향 감소
- 제외사례 활용가능 => 추출 가치 증가
ex) 구글 vsIBM 번역
4) 인과관계 (Causaiton) -> 상관관계 (Correlation)
- 이론적 인과 덜 중요 => 신속/실시간 상관관계 이용
ex) Aviva 보험 (검진 -> 설문)
2.2 빅데이터의 가치 & 영향
빅데이터 가치산정의 어려움
1) 활용맥락/주체 특정 어려움
- 데이터 재사용/재조합(mash up) => 새로운 가치
ex) 덴마크 전자파-중추신경계 종양 연구 - 상황에 따라 다목적으로 이용 가능
ex) CCTV -> 절도/구매 정보
2) 새로운 가치창출
- 기존 사례/기준 없어 가치의 평가/측정 어려움
ex) 킨들 독서패턴, FB 소셜그래프
3) 분석기술 발달
- 분석 못하던 데이터 분석/활용 가능
ex) SNS
** 기존 기업에 경쟁우위 부여 => 주식에 평가 안 됨 ex) 구글, FB
빅데이터 가치창출 방식 (맥킨지, 2011)
1) 투명성 증가 => 연구/관리 효율성 증가
2) 시물레이션으로 수요포착/변수탐색 => 경쟁력 증가
3) 고객 세분화 + 맞춤형 서비스
4) 알고리즘으로 의사결정 보조/대체
5) 비즈니스 모델/제품/서비스 혁신
빅데이터의 영향
- 기업: 혁신 / 경쟁력강화 / 생산성 향상
- 정부: 환경탐색 / 상황분석 / 미래대응 수단 제공
- 개인: 생활전반 스마트화, 일부 직접 활용 (정치인, 가수)
2.3 비즈니스 모델
빅데이터 활용사례
- 기업
- 구글 PageRank
- 월마트 구매패턴 분석
- IBM의 Watson (의료 AI)
- 정부
- 교통/기후정보 수집
- 의료/교육 개선
- NSA의 SNS/CCTV/문자통화기록 분석
- 개인
- 정치인 유세지역 선정
- 가수 청취기록 분석
** NSA: US National Security Agency
빅데이터 활용 기본 테크닉
명칭 | 상세 |
---|---|
연관규칙 학습 Association Rule Learning |
변인 간 상관관계 분석 |
유형 분석 Classification Tree | 기존자료로 훈련분류틀 만들어 새 사건 분류 |
유전 알고리즘 Genetic Algorithms |
최적화 문제를 진화 메커니즘으로 해결 ex) 자연선택, 돌연변이 |
기계학습 Machine Learning | 데이터학습 => 특성파악 => 예측 |
회귀분석 Regression Analysis | 독립/종속변수 관계 파악 |
감정분석 Sentiment Analysis | 고객의 평가/요구 파악 |
소셜 네트워크 분석 | 소셜관계/오피니언 리더 파악 |
2.4 위기요인 & 통제방안
빅데이터 위기요인
요인 | 상세 | 사례 |
---|---|---|
사생활 침해 | M2M 시대 (정보수집 센서 증가) |
ex) 스마트 미터, 익명화 데이터 |
책임원칙 훼손 | 행위결과 아닌 분석/예측결과로 판단 |
ex) 채용, 소송, 대출 |
데이터 오용 | 데이터 과신 잘못된 지표 |
ex) 베트남전 적군 사망자 수 |
** M2M: Machine to Machine
빅데이터 위기요인 통제방안
요인 | 통제방안 |
---|---|
사생활 침해 | 정보 제공 동의제 => 사용자 책임제 |
책임원칙 훼손 | 예측자료로 인한 불이익 최소화 장치 도입 |
데이터 오용 | 알고리즘 접근권 + 객관적 인증방안 도입 |
소비자 프라이버시 보호 3대 권고사항 (FTC:미 연방거래위원회)
-
- Privacy by Design
- 상품 개발단계부터 프라이버시 보호방안 적용
-
- Simplified Choice for Bus. & Customer
- 간결한 정보공유 옵션 제공
-
- Greater Transparency
- 사용자에게 수집된 정보 공개 & 접근권 부여
2.5 미래의 빅데이터
- 데이터
- 모든 것의 데이터화(Datafication)
ex) IoT, 웨어러블, 센서 네트워크
- 모든 것의 데이터화(Datafication)
- 기술
- 빅데이터 분석 알고리즘의 진화
ex) 구글 검색엔진 개인화, 넷플릭스 추천 알고리즘
- 인공지능이 빅데이터 분석
=> 패턴인식/자연어/자동제어/자동추론/지능엔진/시멘틱 웹 분야ex) 구글X의 인공신경망 고양이 스스로 학습, 왓슨의 퀴즈대회 우승
- 빅데이터 분석 알고리즘의 진화
- 인력
-
- 데이터과학자
- 빅데이터 이론 지식 + 숙련된 분석기술 + 통찰력/전달력/협업능력 갖춘 전문인력
=> 빅데이터 가치 극대화
-
- 알고리즈미스트(Algorithmist)
- 기술/비즈니스 이해 + 알고리즘 해석 가능한 전문직
=> 빅데이터 알고리즘으로 발생한 피해 중재 & 해결
-
3장 가치창조를 위한 데이터 사이언스
- 빅데이터 분석 현황 & 현단계 과제 이해
- 전략적 가치 기반 분석 이해
- 데이터 과학의 의미 & 역할 이해
- 데이터 과학자의 요구 역량 이해
- 전략적 통찰 & 인문학 대두 배경 이해
- 데이터 과학자에게 요구되는 인문학적 사고 이해
- 데이터 과학의 미래에 대한 이해
3.1 빅데이터 분석 & 전략 인사이트
빅데이터 열풍과 회의론
: 2013년 기점으로 회의론 증가
ex) 기존 CRM 분석과 비슷, 통찰/기술 미비
데이터 분석과 경영의사결정 사례
-
- 싸이월드 vs FB
- 데이터 수집/분석을 의사결정에 포함시키지 않은 싸이월드는 쇠락
-
- 링크드인 People You May Know 서비스
- 데이터과학자 골드만 교수가 개발한 인맥 추천 서비스 => 뷰 급증
분석기반 경영의 장애물 (하라스 엔터테이먼트 러브먼 회장)
-
- 관행 중시
- 기존 관행 따르고 중요한 시도 안 함
-
- 직관 중시
- 경영진 의사결정에 필요한 건 정확/공정한 분석이 아니라 직관이라 여김
-
- 분석인재 부족
- 분석 능한 사람 희박 => 지식/능력 부족한 사람이 분석업무 맡음
-
- 아이디어 주인에 더 관심
- 아이디어 내용보다 아이디어 낸 사람에게 관심 두는 경향
=> 비용은 주된 장애물 아님!
빅데이터 분석의 핵심
: 데이터 크기/양 보다 비즈니스 핵심에 대한 객관/종합적 통찰이 중요
- 전략/핵심가치에 집중
- 관련 분석 평가지표 개발
- 분석 토대로 시장/고객변화에 대응
ex) 버텍스의 신약 연구개발 분석, 삼성 콜센터의 음성 텍스트 분석
분석지향성 중요도 조사 (데이븐포트, 분석의 기술)
- 양질의 데이터기반 구축 => 경영진의 데이터/시스템 활용 의사결정 증가
- 분석지향성이 강할수록 사업성과/재무성과 높음
- 평균이상의 분석역량 갖췄다는 우수기업(77%)도 가치분석적 통찰력 미비 (36%)
데이터 분석의 함정
: 핵심경쟁전략에 집중해야 분석으로 경쟁우위 취득 가능
- 단순한 사업모델
- 넓은 시야(부서 단위 X)
- 핵심 비즈니스 이슈 분석
ex) 아메리칸 항공 vs 사우스웨스트 항공
일차적인 분석 vs 가치기반 분석
분석종류 | 활용방식 | 효과 |
---|---|---|
일차적인 분석 | 특정 부서/업무영역 최적화 | 업계경쟁력 유지 분석 경험 증가 |
가치기반 분석 | 핵심가치/요소/사회트렌드 분석해 전략적 인사이트 도출 |
중요기회 발굴 주요 경영진 지원 취득 => 강한 모멘텀 |
=> 일차적인 분석으로 경험 늘려 더 넓고 전략적인 가치기반 분석으로 나아가야
-
- 물리자산 생산 기업
- 공급/수요변동, 운영유연성, 공급사슬에 집중
-
- 품질/지적자산 관련 기업
- 분석적 실험, 의사결정에 집중
ex) 제약회사
-
- 인터넷/가치 네트워크 기반 회사
- 고객/서비스 네트워크에 집중
ex) 금융기관, 통신회사
3.2 전략 인사이트 도출 위한 필요 역량
데이터 사이언스의 의미 & 역할
: 데이터로부터 의미있는 정보 추출하는 학문
- 정형/비정형 막론 다양한 데이터 이용
- 분석을 넘어 통찰/전달하는 총체적 접근방식
=> 전략적 통찰로 핵심 비즈니스 이슈 해결 & 사업성과 견인
데이터 사이언스 핵심구성요소
1) IT기술 영역
- 데이터 처리 기술
- 프로그래밍
- 데이터 엔지니어링/웨어하우징
2) 분석 영역
- 수학
- 확률모델
- 머신러닝
- 패턴학습
3) 비즈니스 컨설팅 영역
- 커뮤니케이션
- 프레젠테이션
- 스토리텔링
- 시각화
데이터 사이언스티스트의 요구역량
1) 하드 스킬
- 이론적 지식 : 관련 기법 이해 & 방법론
- 분석기술 숙련 : 최적의 분석설계 & 노하우
2) 소프트 스킬
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 시각화 능력
- 다분야간 협력 : 커뮤니케이션 능력
데이터 사이언스: 과학과 인문학의 교차로
: 통찰력 있는 분석 하려면 과학적 지식 &인문학적 소양(=소프트 스킬) 모두 필요
- 회사/업계에 대한 큰 그림
- 고객의 미래 요구에 대한 비전
ex) 애플 신제품 발표회, FB/구글의 인문학 전공자 채용
빅데이터와 인문학 열풍의 공통 배경
: 산출물 + 소비자의 재미/편의 이해 필요 => 인문학적 통찰 필요
1) 단순한 세계화 -> 복잡한 세계화
- 기존
- 글로벌 효율/규모의 경제
- 표준화/이성화
- 신흥국=생산, 선진국=시장
- 현재
- 다양성
- 사회 정체성
- 맥락/관계/연결성/창조성
- 신흥국 = 생산 + 시장
2) 제품생산 중심 -> 서비스 중심 비즈니스
- 기존 : 효용경제 => 품질중시
- 현재 : 체험경제 => 고객 관계/소통 중요
3) 생산 -> 시장창조 경제
-
- 기존
- 품질=경쟁력 => 공급자 중심의 기술경쟁
- 현재 : 현지화 패러다임 => 암묵/함축적 지식 중요
인문학의 요체
: 지식의 정리가 아닌 집요하게 <왜>를 따지는 것왜>
- 질문 찾기
- 문제의 이면 파고 들기
- 가설 세워 검증
분석이 다루는 핵심문제
과거 | 현재 | 미래 | |
---|---|---|---|
정보활용 | 일어난 일 => 리포팅 |
일어나고 있는 일 => 경고 |
일어날 일 => 패턴추출 |
통찰제시 | 왜/어떻게 => 모델/실험 |
차선행동 => 효과적 권고 |
최악/최선 상황 => 예측/최적화/시뮬레이션 |
데이터 사이언티스트의 역할
: 강한 호기심 -> 질문 + 검증 반복 -> 합리적 추론(정량분석 + 인문학적 통찰)
인문학적 퉁찰력 적용 사례
- ex) 신용리스크 모델
- 인간을 바라보는 관점에 따라 필요 데이터/기술 달라짐 => 새로운 가치/혁신
- 성향적 관점
- 행동적 관점
- 상황적 관점
3.3 빅데이터 & 데이터 사이언스의 미래
빅데이터의 시대
: 데이터량/활용 다양성 급증
ex) 선호 워크숍 종류, 오바마 캠프의 The Cave 팀
지식경제 시대의 가치 패러다임 변화
- 디지털화 eX) 운영프로그램, 오피스
- 연결 ex) 구글 검색 서비스, 네이버
-
- 에이전시
- 빅데이터 신속/정확히 처리해 하이퍼연결을 효율/효과적 관리하는 에이전시 필요
데이터 사이언스의 한계와 인문학
-
- 인간의 해석 개입
- 분석결과 해석에 따라 결론 달라짐
-
- 모델 내에서만 정확
- 수집된 데이터와 근거된 가정 아래에서만 정확 => 모델 바깥 요인 판단 불가
데이터 사이언티스트의 자세
: 데이터 사이언스의 한계 직시하고 인문학자처럼 고찰 필요
- 모델의 능력에 항상 의구심 갖기
- 가정들과 현실의 불일치 고찰
- 모델이 예측 못하는 위험 살피기
- 경험과 현실세상에 대한 통찰력 활용