1장 데이터의 이해
제1절 데이터와 정보
1. 데이터의 정의
- 관념적/추상적 개념 -> 기술적/사실적 의미
1-1. 데이터의 2개 특성
1) 존재적 특성 : 객관적 사실 (fact, raw material)
2) 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거(basis)
1-2. 데이터의 2가지 유형
1) 정성적 데이터 : 언어, 문자 등 비정형 데이터 / 상대적으로 많은 비용, 기술적 투자가 수반됨
2) 정량적 데이터 : 수치, 도형, 기호 등의 데이터 / 저장, 검색, 분석 활요에 용이함
1-3. 지식경영의 핵심이슈 암묵지 / 형식지의 상호작용에 중요한 역할을 하는 데이터
암묵지 | 공통화 / 내면화 | 학습, 체험을 통해 개인에게 습득된 무형의 지식 / 공유 어려움 / 과학적 발견 |
형식지 | 표출화 / 연결화 | 형상화된 지식 / 지식의 전달, 공유가 용이 / 유형의 대상이 있음 |
2. 데이터와 정보의 관계
2-1. DIKW 피라미드
데이터 (Data) | 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 |
정보 (Information) | 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 |
지식 (Knowledge) | 상호 연결된 정보패턴을 이해하여 이를 토대로 예측한 결과물 |
지혜 (Wisdom) | 근본원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 |
제2절 데이터베이스 정의와 특징
1. 용어 연혁
1950s | 데이터베이스 용어 탄생 (데이터의 기지라는 뜻) |
1963 | 미국 SDC 개최 심포지엄에서 공식 사용 |
GE 바크만이 IDS 개발 (최초의 현대적 의미의 데이터베이스관리시스템(DBMS)) | |
1965 | 2차 심포지엄에서 데이터베이스 시스템 (시스템을 통한 체계적 관리와 저장) 용어 등장 |
1970s 초반 | 유럽 데이터베이스 단일어 일반화 |
1970s 후반 | 미국 주요신문에서 흔히 사용 |
2. 데이터베이스의 정의
EU 『데이터베이스의 법적 보호에 관한 지침』 |
체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 |
『국내 저작권법』 | 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 |
『컴퓨터 용어사전, 정보통신용어사전(TTA)』 |
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합 |
3. 데이터베이스의 특징
3-1. 데이터베이스의 일반적 특징
통합된 데이터 | 동일한 내용의 데이터가 중복되어 있지 않음 |
저장된 데이터 | 컴퓨터가 접근할 수 있는 저장매체에 저장됨 |
공용 데이터 | 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용 |
변화되는 데이터 | 새로운 데이터 삽입 / 기존 데이터 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터 유지 |
3-2. 데이터베이스의 정보의 축적 및 전달 측면에서의 특성
- 기계가독성 / 검색가능성 / 원격조작성
3-3. 여러 측면에서의 특성
1) 정보이용측면 : 다양한 정보를 신속하게 획득, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
2) 정보관리측면 : 질서, 구조에 따라 정리∙저장∙검색∙관리 / 방대한 양의 정보를 체계적으로 축적, 새 내용 갱신이 용이
3) 정보기술발전의 측면 : 데이터베이스는 정보기술의 발전을 견인할 수 있음 (정보처리, 검색,관리 HW/SW, 네트워크 기술)
4) 경제, 산업적 측면 : 경제, 산업, 사회활동의 효율성을 제고 / 국민의 편의 증진하는 수단
제3절 데이터베이스 활용
1. 기업내부 데이터베이스
OLTP | Online Transaction Processing 단순 자동화에 치우침 |
OLAP | Online Analytical Processing 분석이 중심이 되는 시스템 |
CRM (Customer Relation ..) |
고객관계관리 | SCM |
공급망관리 |
ERP | 관리시스템의 경영자원을 통합시스템으로 구축해 생산성 극대화하는 경영혁신기법 | DW | DataWarehouse |
BI (Business Intelligence) |
기업 데이터를 정리/분석해 기업의 의사결정에 활용하는 일련의 프로세스 | BA (Business Analysis) |
인사이트를 얻고 계획 수립을 위해 과거실적을 조사하고 결과를 예상하기 위한 목적으로 이용하는 스킬, 기술, 실무 |
KMS (Knowledge M.. S..) |
지식관리시스템 | KPI | 핵심성과지표 |
RFID | 전자태그 | BSC | 균형성과관리 |
* 데이터 웨어하우스의 특성 4가지
- 데이터의 주제 지향성 / 데이터 통합 / 데이터 시계열성 / 비휘발성
2. 사회기반 구조로서의 데이터베이스
SOC | 사회간접자본 | EDI 서비스 | |
VAN | 부가가치통신망 | CVO 서비스 (Commercial Vehicle OS) |
화물운송서비스 |
GIS | ITS (Intelligent Transport S) |
지능형 교통정보 시스템 |
제2장 데이터의 가치와 미래
제1절 빅데이터의 이해
1-1. 빅데이터의 정의
- 큰 데이터
- 기존 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합
- 2011, 맥킨지 : 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 2011. IDC : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집·발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
- 일본 노무라연구소 : 데이터와 데이터 처리, 저장 및 분석 기술 + 의미있는 정보 도출에 필요한 인재나 조직도 포함
1-2. 빅데이터의 5V
1) 3V : Volume(규모) / Variety(형태, 다양성) / Velocity(속도)
2) 5V : 3V + Veracity(정확성) / Value(가치)
2. 빅데이터 출현 배경
- 산업계 : 고객데이터 축적 및 활용 증가
- 학계 : 거대 데이터 활용 과학 확산
- 관련 기술 발전 (디지털화 / 저장기술 발전 / 인터넷 보급 / 모바일 혁명 / 클라우드 컴퓨팅)
- SNS와 사물 네트워크 확산
3. 빅데이터 기능의 비유
- 산업혁명의 석탄, 철
- 21세기의 원유
- 렌즈, 현미경 (ex/ 구글의 'Ngram Viewer')
- 플랫폼 기능 : 데이터를 공개해 활용할 수 있도록 한다
4. 빅데이터가 만들어 내는 본질적 변화
사전 처리 | ☞ | 사후 처리 |
표본 조사 | 전수 조사 | |
질 | 양 | |
인과관계 | 상관관계 |
제2절 빅데이터의 가치와 영향
1. 빅데이터의 가치
1-1. 빅데이터의 가치를 측정하는 것이 어려운 이유
- 데이터 활용 방식 : 재사용 / 재조합 / 다목적용 개발로 특정 데이터를 언제, 어디서, 누가 활용할지 알기 어려움
- 새로운 가치 창출 : 데이터가 기존에 없던 가치를 창출해 가치 측정이 어려움
- 분석 기술 발전 : 가치없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐
2. 빅데이터가 시장에 미치는 영향 -> 생활 전반의 스마트화
기업 | 혁신 / 경쟁력 / 생산성 향상 |
정부 | 환경 탐색 / 상황분석 / 미래대응 |
개인 | 목적에 따라 활용 |
제3절 비즈니스 모델
1. 빅데이터 활용사례
- 기업혁신 사례
- 정부 활용 사례
- 개인 활용 사례
2. 빅데이터 활용 기본 테크닉
빅데이터 기술 | 설명 | 예시 |
연관규칙 학습 | 변인들 간 상관관계를 찾아내는 방법 | A를 구매한 사람이 B를 더 많이 사는가 |
유형분석 | 새로운 사건이 속하게 될 범주를 찾아내는 것 | 이 사용자가 어떤 특성을 가진 집단에 속하는가 |
유전 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등의 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 |
최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가 |
기계 학습 | 훈련 데이터로 학습한 특성을 활용해 예측하는 것 | 기존 시청기록을 바탕으로 시청자는 어떤 영화를 가장 보고 싶어 하는가 |
회귀 분석 | 독립변수를 조작해, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악하는 것 | 구매자의 나이가 구매차량 타입에 어떤 영향을 미치는가 / 고객의 만족도와 충성도 |
감정 분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 것 | 새 환불 정책에 대한 고객의 평가 / 긍정, 부정적인 상품평 파악 |
소셜 네트워크 분석 | 오피니언 리더(영향력있는 사람)를 찾아내고, 고객 간 소셜 관계를 파악하는 것 | 특정인과 다른 사람이 몇 촌 관계인가 |
제4절 위기요인과 통제방안
1. 위기요인과 통제방안 매칭하기
위기요인 | 통제방안 | 예시 |
사생활 침해 | 동의에서 책임으로 | FTC [소비자 프라이버시 보호 3대 권고사항] 1) 상품 개발 단계에서부터 소비자 프라이버시 보호방안 적용 2) 소비자에게 공유정보 선택 옵션 제공 3) 수집된 정보내용 공개 및 접근권 부여 |
책임원칙 훼손 | 결과기반 책임 원칙 고수 | 아직 범죄를 저지르지 않은 사람을 체포 / 마이너리티 리포트 |
데이터 오용 | 알고리즘에 대한 접근 허용 | 알고리즈미스트 대두 |
제5절 미래의 빅데이터
1. 빅데이터 활용에 필요한 기본 3요소
- 데이터 / 기술 / 인력
1-1. 빅데이터 프로젝트에서 이익실현을 방해하는 요인
- 전문가 부족 / 사일로우 조직(조직 간 소극적 정보공유) / 섀도우 IT(IT부서 아닌 현업부서가 프로젝트 추진)의 부상
제3장 가치창조를 위한 데이터 사이언스와 전략 인사이트
제1절 빅데이터 분석과 전략 인사이트
1. 빅데이터 열풍과 회의론
2. 왜 싸이월드는 페이스북이 되지 못했나? 싸이월드 퇴보의 원인
- 데이터 분석 기반 경영 문화의 부재
- 경영진의 직관적 결정에 따름
3. 빅데이터 분석, 'Big'이 핵심이 아니다
- 직관에 기초한 의사결정 X / 데이터에 기초한 의사결정이 중요
- 데이터의 양 X / 데이터 유형의 다양성이 중요
- 빅데이터와 관련된 걸림돌은 비용 X / 분석적 방법과 성과에 대한 이해 부족
4. 전략적 통찰이 없는 분석의 함정
4-1. 분석활용 - 사업성과의 상관관계
- 성과가 우수한 기업 => 전략적으로 일상 업무에 분석 활용 / 의사결정을 지원하는 역량이나 실시간 분석 역량 보유
- 단, 성과가 우수한 기업들도 가치 분석적 통찰력을 갖췄다고 대답한 비율이 낮음
- 데이터 분석 내재화는 쉬운 일이 아님
- 단순히 분석을 많이 하는 것이 경쟁우위를 가져다주지 않음
- 좀 더 넓은 시야에서의 핵심적인 비즈니스 이슈에 답을 하는 분석 필요
5. 일차적인 분석 vs 전략도출을 위한 필요 역량
제2절 전략 인사이트 도출을 위한 필요 역량
1. 데이터 사이언스의 의미와 역할
1-1. 데이터 사이언스란?
- 데이터로부터 의미있는 정보를 추출해내는 학문
- 데이터 사이언스는 정형/비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용
- 데이터 마이닝은 분석에 초점 / 데이터 사이언스는 분석 뿐 아니라 효과적으로 구현, 전달하는 과정까지 모두 포괄
2. 데이터 사이언스의 구성요소 / A I 비
Analytics | 수학 / 확률모델 / 머신러닝 / 분석학 / 패턴 인식과 학습 / 불확실성 모델링 |
IT (Data Management) |
시그널 프로세싱 / 프로그래밍 / 데이터 엔지니어링 / 데이터 웨어하우징 / 고성능 컴퓨팅 |
비즈니스 분석 | 커뮤니케이션 / 프리젠테이션 / 스토리텔링 / 시각화 |
2-1. 데이터 사이언스의 요구역량
하드 스킬 | 빅데이터에 대한 이론적 지식 |
빅데이터 분석 기술의 숙련 | |
소프트 스킬 | 통찰력있는 분석 |
설득력있는 전달 | |
협력 |
3. 데이터 사이언스 : 과학과 인문의 교차로
4. 전략적 통찰력과 인문학의 부활
4-1. 최근 사회 경제적 환경의 변화
- 단순 세계화(convergence) -> 복잡한 세계화(divergence)
- 비즈니스의 중심 : 제품생산 -> 서비스
- 경제와 산업의 논리 : 생산 -> 시장창조
5. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할
구분 | 정보 차원 | 통찰력 제시 |
과거 | 무슨 일이 일어났는가? / 보고서 작성 | 어떻게, 왜 일어났는가? / 모델링, 실험설계 |
현재 | 무슨 일이 일어나고 있는가? / 경고 | 차선 행동은 무엇인가? / 권고 |
미래 | 무슨 일이 일어날 것인가? / 추출 | 최악, 최선의 상황은 무엇인가? / 예측, 최적화, 시뮬레이션 |
6. 데이터분석 모델링에서 인문학적 통찰력의 적용사례
- 인간을 바라보는 관점 : 타고난 성향의 관점 / 행동적 관점 / 상황적 관점(가변적 성향)
제3절 빅데이터 그리고 데이터 사이언스의 미래
1. 빅데이터의 시대
- 2011년 기준 디지털 정보량 1.8 제타바이트
1-1. 데이터 용량 단위 (페엑제요)
기가바이트 < 테라바이트 < 페타바이트 < 엑사바이트 < 제타바이트 < 요타바이트
2. 빅데이터 회의론을 넘어: 가치 + 패러다임의 변화
- 가치 패러다임 :
가치원천이 일정기간 패러다임적 존재로 강력한 힘을 행사하다가 효력이 다하면 다음의 가치 패러다임에게 지배적 지위를 넘겨줌
- 가치 패러다임의 변화 : 디지털화 -> 연결 -> 에이전시
디지털화 | 아날로그 세상을 효과적으로 디지털화하는 것 | 도스, 오피스프로그램 |
연결 | 디지털화된 정보들이 서로 연결되어, 이 연결이 얼마나 효과적/효율적으로 제공되느냐가 이 시대의 성패를 가름 |
구글 검색 알고리즘 네이버의 콘텐츠 |
에이전시 | 사물인터넷의 성숙에 따라 연결 증가, 복잡해짐 복잡한 연결을 효과적으로 믿을만하게 관리하는 것이 이슈 |
3. 데이터 사이언스의 한계와 인문학
- 빅데이터 과제의 주된 걸림돌은 비용이 아니라 분석적 방법에 대한 이해부족
- 모든 분석은 가정에 근거하며, 가정이 변하지 않는 동안에도 실제 외부 요인은 계속해서 변화함
- 완벽하지 않은 데이터 분석이라도, 정보가 뒷받침되지 않은 직관보다 낫다
* 개인정보 비식별 기술 (데이터 익명화)
데이터 마스킹 | 익명으로 데이터 생성 |
가명처리 | 주체의 이름을 변경 |
총계처리 | 총합으로 나타냄 |
데이터 값 삭제 | 필요없거나 중요한 값 삭제 |
데이터 범주화 | ex) 34세 -> 30 ~ 40세 |
밑줄 : 기출문제 출제됨
초록 : 긍정 단어
빨강 : 부정 단어
'인간세상의 종말이 도래해따 > 데이터 분석' 카테고리의 다른 글
[빅데이터 분석 기사] 빅분기 시험 결과 확인, 성적공시 (0) | 2023.07.12 |
---|---|
데이터분석 준전문가(ADsP) 시험결과 확인! (0) | 2020.12.23 |
데이터분석 준전문가 ADsP 시험결과 확인, 성적공고일 확인하기! (0) | 2020.12.03 |
[ADsP] 데이터분석 준전문가, SQLD 서울지역 고사장 (0) | 2020.11.17 |
[ADsP] 국가공인 데이터분석준전문가 준비하기 1 - 접수 (0) | 2020.11.16 |
댓글