본문 바로가기
인간세상의 종말이 도래해따/데이터 분석

[ADsP] 1과목 키워드 정리

by 민곰 2020. 11. 19.
728x90

1장 데이터의 이해

제1절 데이터와 정보

 

1. 데이터의 정의

- 관념적/추상적 개념 -> 기술적/사실적 의미

 

1-1. 데이터의 2개 특성

1) 존재적 특성 : 객관적 사실 (fact, raw material)

2) 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거(basis)

 

1-2. 데이터의 2가지 유형

1) 정성적 데이터 : 언어, 문자 등 비정형 데이터 / 상대적으로 많은 비용, 기술적 투자가 수반됨

2) 정량적 데이터 : 수치, 도형, 기호 등의 데이터 / 저장, 검색, 분석 활요에 용이함

 

1-3. 지식경영의 핵심이슈 암묵지 / 형식지의 상호작용에 중요한 역할을 하는 데이터

암묵지 공통화 / 내면화 학습, 체험을 통해 개인에게 습득된 무형의 지식 / 공유 어려움 / 과학적 발견
형식지 표출화 / 연결화 형상화된 지식 / 지식의 전달, 공유가 용이 / 유형의 대상이 있음

 

2. 데이터와 정보의 관계

2-1. DIKW 피라미드

데이터 (Data) 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
정보 (Information) 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
지식 (Knowledge) 상호 연결된 정보패턴을 이해하여 이를 토대로 예측한 결과물
지혜 (Wisdom) 근본원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

 

제2절 데이터베이스 정의와 특징

1. 용어 연혁

1950s 데이터베이스 용어 탄생 (데이터의 기지라는 뜻)
1963 미국 SDC 개최 심포지엄에서 공식 사용
GE 바크만이 IDS 개발 (최초의 현대적 의미의 데이터베이스관리시스템(DBMS))
1965 2차 심포지엄에서 데이터베이스 시스템 (시스템을 통한 체계적 관리와 저장) 용어 등장
1970s 초반 유럽 데이터베이스 단일어 일반화
1970s 후반 미국 주요신문에서 흔히 사용

 

2. 데이터베이스의 정의

EU
『데이터베이스의 법적 보호에 관한 지침』
체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로
개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
『국내 저작권법』 소재를 체계적으로 배열 또는 구성한 편집물로서
개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것
『컴퓨터 용어사전,
정보통신용어사전(TTA)』
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서
데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된
데이터의 집합

 

3. 데이터베이스의 특징

3-1. 데이터베이스의 일반적 특징

통합된 데이터 동일한 내용의 데이터가 중복되어 있지 않음
저장된 데이터 컴퓨터가 접근할 수 있는 저장매체에 저장됨
공용 데이터 여러 사용자서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용
변화되는 데이터 새로운 데이터 삽입 / 기존 데이터 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터 유지

 

3-2. 데이터베이스의 정보의 축적 및 전달 측면에서의 특성

- 기계가독성 / 검색가능성 / 원격조작성

 

3-3. 여러 측면에서의 특성

1) 정보이용측면 : 다양한 정보를 신속하게 획득, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음

2) 정보관리측면 : 질서, 구조에 따라 정리∙저장검색∙관리 / 방대한 양의 정보를 체계적으로 축적, 새 내용 갱신이 용이

3) 정보기술발전의 측면 : 데이터베이스는 정보기술의 발전을 견인할 수 있음 (정보처리, 검색,관리 HW/SW, 네트워크 기술)

4) 경제, 산업적 측면 : 경제, 산업, 사회활동의 효율성을 제고 / 국민의 편의 증진하는 수단

 

제3절 데이터베이스 활용

1. 기업내부 데이터베이스

OLTP Online Transaction Processing
단순 자동화에 치우침
OLAP Online Analytical Processing
분석이 중심이 되는 시스템
CRM
(Customer Relation ..)
고객관계관리 SCM
공급망관리
ERP 관리시스템의 경영자원을 통합시스템으로 구축해 생산성 극대화하는 경영혁신기법 DW DataWarehouse
BI
(Business Intelligence)
기업 데이터를 정리/분석해 기업의 의사결정에 활용하는 일련의 프로세스 BA
(Business Analysis)
인사이트를 얻고 계획 수립을 위해 과거실적을 조사하고 결과를 예상하기 위한 목적으로 이용하는 스킬, 기술, 실무
KMS
(
Knowledge M.. S..)
지식관리시스템 KPI 핵심성과지표
RFID 전자태그 BSC 균형성과관리

* 데이터 웨어하우스의 특성 4가지

- 데이터의 주제 지향성 / 데이터 통합 / 데이터 시계열성 / 비휘발성

 

2. 사회기반 구조로서의 데이터베이스

SOC 사회간접자본 EDI 서비스  
VAN 부가가치통신망 CVO 서비스
(Commercial Vehicle OS)
화물운송서비스
GIS   ITS
(Intelligent Transport S)
지능형  교통정보 시스템

 

제2장 데이터의 가치와 미래

제1절 빅데이터의 이해

1-1. 빅데이터의 정의

- 큰 데이터

- 기존 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합

- 2011, 맥킨지 : 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

- 2011. IDC : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집·발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐

- 일본 노무라연구소 : 데이터와 데이터 처리, 저장 및 분석 기술 + 의미있는 정보 도출에 필요한 인재나 조직도 포함

 

1-2. 빅데이터의 5V

1) 3V : Volume(규모) / Variety(형태, 다양성) / Velocity(속도)

2) 5V : 3V + Veracity(정확성) / Value(가치)

 

2. 빅데이터 출현 배경

- 산업계 : 고객데이터 축적 및 활용 증가

- 학계 : 거대 데이터 활용 과학 확산

- 관련 기술 발전 (디지털화 / 저장기술 발전 / 인터넷 보급 / 모바일 혁명 / 클라우드 컴퓨팅)

- SNS와 사물 네트워크 확산

 

3. 빅데이터 기능의 비유

- 산업혁명의 석탄, 철

- 21세기의 원유

- 렌즈, 현미경 (ex/ 구글의 'Ngram Viewer')

- 플랫폼 기능 : 데이터를 공개해 활용할 수 있도록 한다

 

4. 빅데이터가 만들어 내는 본질적 변화

사전 처리 사후 처리
표본 조사 전수 조사
인과관계 상관관계

 

제2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

1-1. 빅데이터의 가치를 측정하는 것이 어려운 이유

- 데이터 활용 방식 : 재사용 / 재조합 / 다목적용 개발로 특정 데이터를 언제, 어디서, 누가 활용할지 알기 어려움

- 새로운 가치 창출 : 데이터가 기존에 없던 가치를 창출해 가치 측정이 어려움

- 분석 기술 발전 : 가치없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐

 

2. 빅데이터가 시장에 미치는 영향 -> 생활 전반의 스마트화

기업 혁신 / 경쟁력 / 생산성 향상
정부 환경 탐색 / 상황분석 / 미래대응
개인 목적에 따라 활용

 

제3절 비즈니스 모델

1. 빅데이터 활용사례

- 기업혁신 사례 

- 정부 활용 사례

- 개인 활용 사례

 

2. 빅데이터 활용 기본 테크닉

빅데이터 기술 설명 예시
연관규칙 학습 변인들 간 상관관계를 찾아내는 방법 A를 구매한 사람이 B를 더 많이 사는가
유형분석 새로운 사건이 속하게 될 범주를 찾아내는 것 이 사용자가 어떤 특성을 가진 집단에 속하는가
유전 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등의
매커니즘을 통해 점진적으로 진화시켜 나가는 방법
최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가
기계 학습 훈련 데이터로 학습한 특성을 활용해 예측하는 것 기존 시청기록을 바탕으로 시청자는 어떤 영화를 가장 보고 싶어 하는가
회귀 분석 독립변수를 조작해, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악하는 것 구매자의 나이가 구매차량 타입에 어떤 영향을 미치는가 / 고객의 만족도와 충성도
감정 분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 것 새 환불 정책에 대한 고객의 평가 / 긍정, 부정적인 상품평 파악
소셜 네트워크 분석 오피니언 리더(영향력있는 사람)를 찾아내고, 고객 간 소셜 관계를 파악하는 것 특정인과 다른 사람이 몇 촌 관계인가

 

제4절 위기요인과 통제방안

1. 위기요인과 통제방안 매칭하기

위기요인 통제방안 예시
사생활 침해 동의에서 책임으로 FTC [소비자 프라이버시 보호 3대 권고사항]
1) 상품 개발 단계에서부터 소비자 프라이버시 보호방안 적용
2) 소비자에게 공유정보 선택 옵션 제공
3) 수집된 정보내용 공개 및 접근권 부여
책임원칙 훼손 결과기반 책임 원칙 고수 아직 범죄를 저지르지 않은 사람을 체포 / 마이너리티 리포트
데이터 오용 알고리즘에 대한 접근 허용 알고리즈미스트 대두

 

제5절 미래의 빅데이터

1. 빅데이터 활용에 필요한 기본 3요소

- 데이터 / 기술 / 인력

 

1-1. 빅데이터 프로젝트에서 이익실현을 방해하는 요인

- 전문가 부족 / 사일로우 조직(조직 간 소극적 정보공유) / 섀도우 IT(IT부서 아닌 현업부서가 프로젝트 추진)의 부상

 

 

제3장 가치창조를 위한 데이터 사이언스와 전략 인사이트

제1절 빅데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

 

2. 왜 싸이월드는 페이스북이 되지 못했나? 싸이월드 퇴보의 원인

- 데이터 분석 기반 경영 문화의 부재

- 경영진의 직관적 결정에 따름

 

3. 빅데이터 분석, 'Big'이 핵심이 아니다

- 직관에 기초한 의사결정 X / 데이터에 기초한 의사결정이 중요

- 데이터의 X / 데이터 유형의 다양성이 중요

- 빅데이터와 관련된 걸림돌은 비용 X / 분석적 방법과 성과에 대한 이해 부족

 

4. 전략적 통찰이 없는 분석의 함정

4-1. 분석활용 - 사업성과의 상관관계

- 성과가 우수한 기업 => 전략적으로 일상 업무에 분석 활용 / 의사결정을 지원하는 역량이나 실시간 분석 역량 보유

- 단, 성과가 우수한 기업들도 가치 분석적 통찰력을 갖췄다고 대답한 비율이 낮음

- 데이터 분석 내재화는 쉬운 일이 아님

- 단순히 분석을 많이 하는 것이 경쟁우위를 가져다주지 않음

- 좀 더 넓은 시야에서의 핵심적인 비즈니스 이슈에 답을 하는 분석 필요

 

5. 일차적인 분석 vs 전략도출을 위한 필요 역량

 

 

제2절 전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미와 역할

1-1. 데이터 사이언스란?

- 데이터로부터 의미있는 정보를 추출해내는 학문

- 데이터 사이언스는 정형/비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용

- 데이터 마이닝은 분석에 초점 / 데이터 사이언스는 분석 뿐 아니라 효과적으로 구현, 전달하는 과정까지 모두 포괄

 

2. 데이터 사이언스의 구성요소 / A I 비

Analytics 수학 / 확률모델 / 머신러닝 / 분석학 / 패턴 인식과 학습 / 불확실성 모델링
IT
(Data Management)
시그널 프로세싱 / 프로그래밍 / 데이터 엔지니어링 / 데이터 웨어하우징 / 고성능 컴퓨팅
비즈니스 분석 커뮤니케이션 / 프리젠테이션 / 스토리텔링 / 시각화

 

2-1. 데이터 사이언스의 요구역량

하드 스킬 빅데이터에 대한 이론적 지식
빅데이터 분석 기술의 숙련
소프트 스킬 통찰력있는 분석
설득력있는 전달
협력

 

3. 데이터 사이언스 : 과학과 인문의 교차로

 

4. 전략적 통찰력과 인문학의 부활

4-1. 최근 사회 경제적 환경의 변화

- 단순 세계화(convergence) -> 복잡한 세계화(divergence)

- 비즈니스의 중심     : 제품생산 -> 서비스

- 경제와 산업의 논리 : 생산 -> 시장창조

 

5. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할

구분 정보 차원 통찰력 제시
과거 무슨 일이 일어났는가? / 보고서 작성 어떻게, 왜 일어났는가? / 모델링, 실험설계
현재 무슨 일이 일어나고 있는가? / 경고 차선 행동은 무엇인가? / 권고
미래 무슨 일이 일어날 것인가? / 추출 최악, 최선의 상황은 무엇인가? / 예측, 최적화, 시뮬레이션

 

6. 데이터분석 모델링에서 인문학적 통찰력의 적용사례

- 인간을 바라보는 관점 : 타고난 성향의 관점 / 행동적 관점 / 상황적 관점(가변적 성향)

 

 

제3절 빅데이터 그리고 데이터 사이언스의 미래

1. 빅데이터의 시대

- 2011년 기준 디지털 정보량 1.8 제타바이트

1-1. 데이터 용량 단위 (페엑제요)

기가바이트 < 테라바이트 < 페타바이트 < 엑사바이트 < 제타바이트 < 요타바이트

 

2. 빅데이터 회의론을 넘어: 가치 + 패러다임의 변화

- 가치 패러다임 :

가치원천이 일정기간 패러다임적 존재로 강력한 힘을 행사하다가 효력이 다하면 다음의 가치 패러다임에게 지배적 지위를 넘겨줌

- 가치 패러다임의 변화 : 디지털화 -> 연결 -> 에이전시

디지털화 아날로그 세상을 효과적으로 디지털화하는 것 도스, 오피스프로그램
연결 디지털화된 정보들이 서로 연결되어,
이 연결이 얼마나 효과적/효율적으로 제공되느냐가 이 시대의 성패를 가름
구글 검색 알고리즘
네이버의 콘텐츠
에이전시 사물인터넷의 성숙에 따라 연결 증가, 복잡해짐
복잡한 연결을 효과적으로 믿을만하게 관리하는 것이 이슈
 

 

3. 데이터 사이언스의 한계와 인문학

- 빅데이터 과제의 주된 걸림돌은 비용이 아니라 분석적 방법에 대한 이해부족

- 모든 분석은 가정에 근거하며, 가정이 변하지 않는 동안에도 실제 외부 요인은 계속해서 변화함

- 완벽하지 않은 데이터 분석이라도, 정보가 뒷받침되지 않은 직관보다 낫다

 

* 개인정보 비식별 기술 (데이터 익명화)

데이터 마스킹 익명으로 데이터 생성
가명처리 주체의 이름을 변경
총계처리 총합으로 나타냄
데이터 값 삭제 필요없거나 중요한 값 삭제
데이터 범주화 ex) 34세 -> 30 ~ 40세

 

 

밑줄 : 기출문제 출제됨

초록 : 긍정 단어

빨강 : 부정 단어

728x90

댓글