데이터 드리븐, 데이터가 결정의 수단이 아닌, 결정의 배경과 이유
데이터의 역할, 확률싸움 -> 뾰족한 방향으로
https://teamdoeat.career.greetinghr.com/ko/blog16
시험문제 예시
Q:반정형 데이터가 아닌 것은?
A: HTML, XML, JSON, RDF
Q: 다음 중 성격이 같지 않은 것은?
A: SNS, 유튜브, 음원 -> 비정형 데이터임을 감지해야 함.
Q: 다음 중 3V가 아닌 것은?
Q: 다음 중 장기적 마스터 플랜이 아닌 것은?

시험개요
1과목: 10문제(6/10)
2과목: 10문제(6/10)
3과목: 30문제(18/30)
*과락 있어서 과목당 40% 이상 맞아야 함.

데이터
데이터: 있는 그대로의 객관적 사실, 가공되지 않은 상태(주문수량)
정보: 데이터를 가공한 자료
데이터의 유형
(1) 정성적, 정량적
- 정량적 데이터: 자료를 수치화
- 정성적 데이터: 자료의 특징을 풀어 설명
정형, 반정형, 비정형
- 정형 데이터: 정보 형태가 정해짐(관계형 DB, CSV)
- 반정형 데이터: 데이터를 설명하는 메타데이터를 포함 (HTML, XML, JSON, RDF)
-> 프레임이 갖춰져있진 않은데, 설명서가 하나 포함되어 있음

- 비정형 데이터: 형태가 정해지지 않음, 개인 창작물(SNS, 유튜브, 음원)
암묵지, 형식지 상호작용!
- 암묵지: 개인에게 습득되고 겉으로 드러나지 않음.
-> 요리를 혼자 해서 알아내
- 형식지: 문서, 메뉴얼 등의 형상화된 지식
-> 내가 만들어낸 요리를 많은 사람한테 블로그 포스팅 해서 알림
공표연내
1) 공통화: 나의 요리비법을 조수 또는 동료에게 알려줌
2) 표출화: 내 요리비법을 블로그나 요리책으로 만듦
3) 연결화: 내 요리책에 이전 지식들을 새롭게 추
4) 내면화: 다른 사람이 내 요리지식을 습득해
DIKW 피라미드
데이터(data) - 정보(information) - 지식(knowledge) - 지혜(Wisdom)
1) 핸드폰은 얼마야
2) A대리점 핸드폰이 더 싸
3) A에서 핸드폰 사면 더 이득이네
4) A대리점의 기기들도 더 저렴할 듯?
데이터 단위
KB < MB < GB < TB< PB < ZB < YB
2^10 < 2^20 < 2^30 ...
PEZYZYO(패지요 - 짜증 나는 상사 패지요!), 페타, 엑사, 제타, 요타
데이터베이스의 개념
스키마: DB의 구조와 제약조건에 관한 전반적 명세
<인스턴스: 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값>

메타데이터: 데이터를 설명하는 데이터
인덱스: 정렬, 탐색을 위한 데이터의 이름(물건에 번호를 매겨두고 번호로 찾음)
RDBMS: MySQL, MariaDB, Oracle
NoSQL DBMS: MongoDB, Redis, HBase
SQL
DDL(정의언어): CREATE, ALTER, DROP
DML(조작언어): SELECT, INSERT, DELETE, UPDATE
DCL(제어언어): COMMIT, ROLLBACK, GRANT, REVOKE
데이터베이스의 특징(⭐⭐⭐)
공통저변
1) 공용 데이터: 여러 사용자, 다른 목적, 공동 이용
2) 통합된 데이터: 데이터 중복 X
3) 저장된 데이터: 저장매체 저장
4) 변화하는 데이터: 데이터 CRUD에도, 현재의 데이터 유지(무결성)
데이터베이스 설계 절차
개논물
개념적 설계 -> 논리적 설계 -> 물리적 설계
개념적 스키마 생성 -> ERD를 활용한 논리적 모델링 -> 저장 구조 설계
기업 활용 데이터베이스
*각각의 용어와 뜻을 외워야 함
OLTP: T(Transcation)이여서 거래
OLAP: 대화식(Language)
CRM: Customer Relationship(고객관리)
SCM: 공급망 연결
ERP: 기업 경영 전사 자원
RTE: Real Time(빠른 의사결정 지원)
BI: Business Intelgence, 리포트 중심 도구
BA: Business Analytics, 통찰력
Block Chain
KMS: knowledge, 지식
데이터웨어하우스(DW)
(인사, 개발, 연구) 등의 다양한 부서에서 DB 사용
1) ETL을 통해서 데이터를 빼서 ODS에 임시 저장 후 DW에 적재(전사적으로 모은 거임)
2) DW에 저장된 데이터들을 DM를 통해 세분화된 분야로 활용할 수 있다.

그래서
1) 주제지향성
2) 데이터 통합
3) 시계열성
4) 비휘발성: 읽기 전용
ETL(Extraction - Transform - Load)
* 추출 - 변환 - 적재
ODS(Operational Data Store): 다양한 DBMS에서 추출한 데이터를 임시 저장
데이터레이크(DataLake)
*빅데이터 시대에 비정형 데이터가 중요함
비정형 데이터를 하둡과 연계하여 처리
하둡(Hadoop): 여러 컴퓨터를 하나로 묶어 대용량 데이터 처리
HDFS: 분산형 파일 저장 시스템
MapReduce: 분산된 데이터를 병렬로 처리
빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급
- 클라우딩 컴퓨팅으로 경제성 확보
- 저장매체 가격하락
- 분산 컴퓨팅
- 비정형 데이터 확산
빅데이터의 3V (가트너: 공신력 있는 IT 자문기관) (⭐⭐)
규모, 다양성, 속도
1) Volume(규모): 구글 번역 서비스
2) Variety(다양성)
3) Velocity(속도)
빅데이터가 만들어내는 변화(⭐⭐⭐)
전후양상
1) 표본조사 -> 전수조사
2) 사전처리 -> 사후처리
3) 질 -> 양
4) 인과관계 -> 상관관계
예전에는 데이터를 조사했을 때, 데이터를 많이 저장하기 어려웠음.
표본을 뽑아서 했었는데, 지금은 데이터 다 저장하면 되니까 전수조사
일단 데이터 모으고 사후에 처리, 질보다 양이 중요하니까
원인과 결과보다는 많은 데이터들 간의 상관관계가 더 중요하다.
빅데이터의 가치 산정이 어려운 이유
1) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음.
2) 기존에 가치 없는 데이터도 새로운 분석기법(3과목)으로 새로운 가치를 창출
빅데이터 활용 위한 3대 요소
인자기: 인력, 자원, 기술
빅데이터의 주요 분석기법
3과목에서 배움: 회귀분석, 분류분석, 연관규칙
유전자 알고리즘(⭐): 최적화 필요한 문제의 해결책
문제보기를 주고 최적화하면 될 것 같다.(그럴 때 유전자 알고리즘이 정답.)
-> 택배차량, 어떻게 배치, 최대 시청률 얻으려면 어떻게 방송?
위기 요인과 통제 방안
빅데이터에서 어떻게 위기를 통제할래.
1) 사생활 침해: 사용자 책임으로 전환
2) 책임 원칙 훼손: 결과에 대해서만 책임
3) 데이터의 오용: 알고리즈미스트 필요(부당한 피해 발생 사람 구제 역할)
데이터 3법
- 가명정보의 개념 도입(통계 작성, 연구, 기록보존 목적 하에 동의 없이 활용 가능)
데이터 분석을 하다 보면 사람들의 개인정보를 가지고 분석을 해야 함.
의료정보, 고객정보 -> 처럼 민감한 정보를 그대로 분석하면 개인정보보호법 위반
--> 그렇다면 가명정보를 도입하자
1) 개인정보:
2) 가명정보: 가명처리를 통해 추가정보 없이 특정 불가(홍OO, 30대 초반)
3) 익명정보:
개인정보 비식별화( ⭐ ⭐)
1) 가명처리 (이용우 -> 홍길동)
2) 총계처리 (평균 키 175cm)
3) 데이터 삭제 (990324 -> 90년대)
4) 데이터 범주화(홍길동 30 ~ 40세)
5) 데이터 마스킹(홍길동 -> 홍OO)
데이터 산업의 발전
처리: 프로그래밍 언어를 활용한 데이터의 처리
통합: DBMS의 등장
분석: 빅데이터 분석 기술의 발전
연결: API를 활용한 모듈들의 연결
권리: 마이데이터(MyData)를 활용한 데이터의 주권 행사
*마이데이터: 자신의 신용 정보를 다른 제3자에게 제공하는 서비스(핀테크 기술 발전함)
데이터 사이언스
- 정형/비정형 데이터를 막론하고 데이터를 분석(총체적 접근법)
구성요소
- Analytics, IT, 비즈니스 분석

데이터 사이언티스트
- 하드 스킬(이론적 지식) + 소프트 스킬(문과적인)
빅데이터 가치 패러다임 변화
Digitalization - Connection - Agency
- 아날로그 세상을 디지털화
- 디지털화된 정보들의 연결
- 연결을 효과적으로 관리
~~~~~~~~~ 2과목 - 데이터분석 기획 ~~~~~~~~~
분석 대상과 방법
빅데이터 시대에서 4가지 유형을 넘나들며 분석을 수행하면 됨.

가게를 운영해.
어떤 손님이 머리카락이 나왔다고 컴플레인을 걸어.
1) 빠르게 해결 - 과제 중심적 접근
하지만 이 문제가 주기적으로 발생한다면?
2) 지속적 분석 원인을 토대로 해결

의사결정을 가로막는 요소
프레이밍 효과: 동일 상황임에도 개인의 판단, 결정이 달라짐
분석 방법론
분석 방법론의 구성요소
4개는 갖쳐줘야 함
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출
분석 방법론 모델
1) 계층적 프로세스 모델: 단계 -> 태스크 -> 스텝
2) 폭포수 모델: top-down, 이전 단계 완료되어야 다음 단계 진행
3) 나선형 모델: 여러 개발과정을 거쳐 점진적으로 완성

6) 애자일: 짧은 개발 주기를 가지고 고객 피드백 지속적 반영
3가지 분석방법론
- 시험문제 순서 물어봄
- 각각의 절차마다 내용도 물어볼 수 있음.
KDD 분석 방법론 (⭐)
데이터선택 - 전처리 - 변환 - 마이닝 - 결과 평가
Crisp-DM 분석 방법론 (⭐⭐)
업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
- 프로그램을 만들어서 모델을 평가할 건데, 평가전에 업데이트를 하다가 렉이 걸림
모델 작성 및 평가는 모델링에서 함(평가 아님!!!)
모델링: 모델 작성 및 평가
평가: 분석결과 평가, 모델링 과정 평가
SEMMA 분석 방법론 (아직 출제된 적 없음)
sample - explore - modify - model - assess
빅데이터 분석 방법론(⭐⭐⭐⭐)

세부내용들 전부 나옴.
프로젝트 위험계획 수립
- 도망치거나, 남한테 넘기거나, 완화시키거나, 내가 받아들여
- 회피, 전이, 완화, 수
하향식 접근 방법
문제를 발견하면 해답을 찾으러 내려감

문제 탐색 -> 문제 정의 -> 해결방안 -> 타당성 검토
비즈니스 모델 캔버스 단순화 측면: 업무, 제품, 고객, 규제와 감사, 지원인프라
*원래 9가지였는데, 5가지로 줄였음.
지원인프라 업무 중에 고객이 제품을 규제와 감사했다.
그런데!!!! 문제 정의 자체가 어려우면 아래로 내려가면서 접근이 안됨
상향식 접근 방법
사물을 그대로 인식하는 What 관점
- 주로 비지도 학습 활용
지도 학습 - 하양식 접근법
비지도 학습 - 상향식 접근법
혼합 접근 방법
발산 단계(상향식 접근 방법) -> 수렴 단계(하향식 접근 방법)

가능한 방안들로 상향식 접근을 하고, 도출된 방안들을 분석하면 하향식 접근 방법
디자인 싱킹
절차를 물어보는 게 시험에 나왔었음.
공감먼저!!!!!
- 사용자에 공감으로 시작해서 아이디어 발산/수렴 과정을 통한 피드백으로 발전하는과정
공감하기 -> 문제정의 -> 아이디어 도출 -> 프로토타입 -> 테스트
분석 과제에서 고려해야 할 5가지 요소
정확도 <-> 정밀도 (Trade-off 관계)
정확도: 모델이 얼마나 정확하냐?
정밀도: 모델을 여러 번 반복 수행했을 때, 얼마나 동일한 값이 나오느냐?
프로젝트 관리 지식 체계 10가지 영역
통합, 범위, 시간, 원가, 품질, 인적자원, 의사소통, 리스크, 조달(아웃소싱), 이해관계자
IT 프로젝트의 우선순위 선정 기준
중장기 마스터 플랜을 수립하여 ISP를 활용
*ISP(Information Strategy Planning): 국제 표준 정보 전략
데이터 분석 프로젝트의 우선순위 선정 기준
시급성과 난이도 관점에서 분석
시급성: Value
난이도: 3V

시급성 중요시: 3 - 4 - 2(시급성이 시급성 중요한 애를 끌어와야 한다.(4)를 끌어와야 함)
난이도 중요시: 3 - 1 - 2
분석 거버넌스 체계 수립
시조프로마인드데
조직, 프로세스, 시스템, 데이터, 분석 관련 교육 및 마인드 육성체계
데이터 분석 수준 진단
우리 기업에 데이터 분석 수준이 어느 정도인지 진달을 할 수 있음
6가지 관점으로 봄
- IT인프라
- 분석 문화
- 분석 데이터
- 분석적 업무파악
- 인력 및 조직
- 분석기법

분석 성숙도
얼마나 우리 기업이 분석하기에 성숙되어 있는지?
*CMMI 모델 기반(국제 표준)을 기반으로 하고 있음
분석 성숙도 == CMMI
도촬확최
1) 도입
2) 활용
3) 확산
4) 최적화

데이터 분석 성숙도 모델
(도준정확) 도입형 - 준비형 - 정착형 - 확산형

분석 지원 인프라 방안 수립

확장성을 고려한 플랫폼 구조 적용(중앙집중적 관리)
협의: 개발자만을 위한
- 데이터 처리 프레임워크, 분석엔진, 분석 라이브러리
광의: 협의를 포함하는 개념
- 분석 서비스 제공엔진, 분석 어플리케이션, 분석 서비스 API, 하드웨어
Q: 다음 중 협의에 분석 플랫폼이 아닌 것은?
데이터 거버넌스
1) 전사 차원에서 데이터 대해 표준화된 관리 체계 수립
구성요소: 원칙, 조직, 프로세스
데이터 말고도 빅데이터 거버넌스도 하고 싶음
- 데이터 거버넌스 체계 + 데이터 효율확 등등
조직 및 인력방안 수립(DSCoE: 분석조직) (⭐⭐)
- 집중 구조: 새로운 조직 구성
- 기능 구조: 해당 실무 부서가 직접 분석
- 분산 구조: 분석 조직 인력을 현업 부서에 배치