정성적 데이터 vs 정량적 데이터
- 정성적 데이터 : 언어, 문자 등 ex) 특성에 대한 설명
- 정량적 데이터 : 수치, 도형, 기호 ex) 몸무게, 주가
암묵지 = (상호작용 : 조직차원에서 조직원 지식 공유, 발전) = 형식지
내면화 된 지식을, 조직의 지식으로 공통화 하기 위해서는 개인의 암묵지를 기호, 숫자 등을 표출화 하고, 이를 다시 다른 개인 지식에 연결화
SECI 모델 [ 공통화 -> 표출화 -> 연결화 -> 내면화 ]
- 공통화 : 말로 알려주는 것
- 표출화 : 책으로 써내는 것
- 연결화 : 책에 내용을 추가하는 것
- 내면화 : 책을 통해 지식을 습득하는 것
DIKW 피라미드 [ Data - Information - Knowledge - Wisdom ]
- 데이터 : 순수한 수치나 기호 ex) A 마트에서 깻잎이 1000원, B 마트에선 깻잎이 1500dnjs
- 정보 : 의미를 부여 ex) A마트가 깻잎이 더 싸다
- 지식 : 이를 토대로 예측 ex) A마트에서 깻입을 사야겠다.(미래형)
- 지혜 : 이를 통해 도출되는 아이디어 ex) A마트 야채가 더 쌀것이다
데이터베이스 특징
1) 통합된 데이터 : 데이터의 중복이 없음을 의미
2) 저장된 데이터 : 디스크 등의 저장매체에 저장되는 것을 의미
3) 공용 데이터 : 여러 사용자가 데이터베이스의 데이터를 공동 이용
4) 변화되는 데이터 : 추가,삭제,갱신으로 변화하면서도 항상 현재의 정확한 데이터 상태를 유지
데이터베이스 vs DBMS
- 데이터베이스 : 체계적으로 정렬된 데이터 집합
- DBMS : 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 SW
데이터베이스 설계 절차
- 요구조건 분석 / 명세서 작성
- 개념적 설계
- 논리적 설계
- 물리적 설계
데이터베이스 활용 기술
- OLTP : 온라인 거래처리
- OLAP : 온라인 분석처리
- CRM : 고객관계관리
- SCM : 공급망계획
- ERM(Enterprise Resource Planning)
- BI(Business Intelligence)
- BA(Business Analytics) : BI보다 진보된 형태, 통찰에 초점을 둠
- EAI : 기업 애플리케이션 통합
- KMS : 지식관리시스템
- VAN : 부가가치통신망
- NGIS : 국가지리정보체계
- ITS : 지능형교통시스템
- EDI : 서로 합의된 표준에 따라 전자문서를 통신을 통해 상호 교환하는 것
- DW : 데이터 웨어하우스, 전사적인 규모(데이터마트는 사업무 단위의 소규모)
- [특징 : 주제지향성, 통합성, 시계열성, 비휘발성]
사회기반 구조로서의 데이터베이스
물류부문, 지리부문, 교통부문, 의료부문, 교육부문
빅데이터의 정의 / 데이터의 변화
3V:Volume(규모), Variety(다양성), Velocity(속도) + Value(4V)
인재,조직,변화
- DataScientist 같은 새로운 인재 필요 -> 데이터 중심 조직
- 기존 방식으로 얻을 수 없었던 통찰/가치창출
- 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
빅데이터의 비유 : 석탄과 철, 원유, 렌즈, 플랫폼
빅데이터가 만드는 변화
- 사전처리 -> 사후처리
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계
데이터 유형
- 정형데이터 : RDB, 스프레드시트 등
- 반정형데이터 : HTML, 웹로그 XML 등
- 비정형데이터 : 오디오, 텍스트, 이미지 등
빅데이터 활용
- 연관규칙 학습, 유전 알고리즘, 기계학습, 회귀분석, 사회관계망분석(SNA)
위기와 방안
- 사생활 침해 -> 동의에서 책임으로
- 책임 원칙의 훼손 -> 책임 원칙을 강화
- 데이터 오용
빅데이터 3요소 : 데이터, 기술, 인력
DataScientist 3요소 : IT, Analytics, 비즈니스 분석
데이터 사이언티스트 요구 역량
- 하드 스킬 : 빅데이터에 대한 지식, 분석 기술에 대한 숙련(데이터 관리, 모델링, 비즈니스 분석)
- 소프트 스킬 : 통찰려그 호기심, 창의적 사고, 스토리텔링, 시각화, 커뮤니케이션 능력
가치 패러다임 변화 : 1.디지털화 (과거) , 2.연결(현재), 3.Agency(미래)
빅데이터
Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
3V : Volume(양), Variety(다양성), Velocity(속도)
출현 배경
- 산업계 : 양질 전환 법칙, 고객 데이터 축적
학계 : 거대 데이터 활용 과학 확산
관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer
플랫폼 : 그 자체로 플랫폼 역할
빅데이터가 만들어낸 변화
- 사전처리 → 사후처리
표본조사 → 전수조사
질 → 양
인과관계 → 상관관계
위기요인과 통제 방안
- 사생활침해 → 동의에서 책임으로
책임 원칙 훼손 → 결과 기반 책임 원칙 고수
데이터 오용 → 알고리즘 접근 허용
데이터 활용의 3요소
1) 데이터 : 모든것의 데이터화
센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.
제조업에서 서비스업으로
2) 기술: 알고리즘, 인공지능
3) 인력 : 데이터사이언티스트, 알고리즈미스트
데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요
알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요
빅데이터 활용 기본 테크닉
- 연관규칙 학습 : 상관관계
유형분석 : 분류
유전 알고리즘 : 최적화, 점진적으로 진화
기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악
감정분석
소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악
빅데이터의 이해
① 데이터 변화 에 따른 좁은 관점의 정의 ( 3V , 가트너)
Volumn (규모) : 데이터의 규모 측면, 예) 센싱데이터, 비정형 데이터
Variety (형태) : 데이터의 유형과 소스 측면, 예) 정형, 비정형 데이터 (영상, 사진)
Velocity (속도) : 데이터의 수집과 처리 측면, 예) 원하는 데이터의 추출 및 분석 속도
② 처리, 분석과 같은 기술적 변화 를 포함하는 중간 관점의 정의
데이터 처리, 저장, 분석 기술 및 아키텍처
클라우드 컴퓨팅 활용
③ 인재, 조직 변화 까지 포함하는 넓은 관점의 정의
Data Scientist 같은 새로운 인재 필요
출현 배경과 변화
- 산업계 : 고객 데이터 축적 - 고객 데이터를 추적하여, 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원로서의 기술 확보
학계 : 거대 데이터 활용, 과학 확산 - 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전
기술발전 : 관련 기술의 발달 - 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
ICT의 발전
데이터 규모 : EB(Exa Byte) - ZB(Zetta Byte) 진입 - ZB 본격화 시대
데이터 유형 : 정형 데이터(데이터베이스, 사무정보) - 비정형 데이터(이메일, 멀티미디어, SNS) - 사물정보, 인지정보(RFID, Sensor, 사물통신)
데이터 특성 : 구조화 - 다양성, 복합성, 소셜 - 현실성, 실시간성
빅데이터의 기능 (비유)
- 산업혁명의 석탄, 철 : 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려, 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대됨
21세기의 원유 : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨
렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 (Ngram Viewer)
플랫폼 : '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파트 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 (카카오톡, 페이스북)
2) 정량적 데이터 : 수치, 도형, 기호 (예 : 나이, 몸무게, 온도 등)
학습과 경험을 통해 개인에게 축적된 내면화된 지식
개인에게 습득되어 있지만 겉으로 드러나지 않는 지식
오랜 경험을 통해 개인에게 습득된 무형의 지식
조직의 지식으로 공통화
외부에 표출되어 다른 사람에게 공유되기 어려움
2) 형식지
문서나 메뉴얼처럼 형상화된 지식
언어, 기호, 숫자로 표출화된 지식
개인의 지식으로 연결화
전달과 공유가 용이하다.
가공하기 전의 순수한 데이터
객관적인 사실
2) 정보(Information)
데이터를 가공, 상관관계간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터
데이터 간의 관계 및 현상의 분석
3) 지식(Knowledge)
상호 연결된 패턴을 이해하여 이를 토대로 예측한 결과물
데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화한 것
적용
4) 지혜(wisdom)
데이터베이스
- 데이터의 기지
대량의 데이터를 축적하는 기지
데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
체계적으로 정렬된 데이터 집합
데이터량과 이용이 늘어나면서 데이터를 저장/관리/검색/이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
정보의 집합체
- 데이터베이스의 특징
통합된 데이터 : 중복 x
저장된 데이터 : 저장매체에 저장
공용데이터 : 서로 다른 목적, 공동 데이터 이용
변화되는 데이터 : 계속 변화하면서도 항상 현재의 정확한 데이터 유지
- 데이터베이스의 특성
정보의 축적 및 전달 : 기계가독성, 검색가능성, 원격조작성 = 원거리에서도 즉시 온라인으로 이용
정보 이용 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보 관리 : 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다.
정보기술 발전 : 정보처리, 검색/관리 소프트웨어, 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
경제/산업 : 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 갖는다.
- 데이터베이스 활용
1) OLTP(Online Transaction Processing)
단순한 정보의 '수집'
단순 자동화
데이터베이스의 데이터를 수시로 갱신하는 프로세싱
데이터 갱신 위주
2) OLAP(Online Analytical Processing)
정보 위주의 분석 처리
OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악 등을 프로세싱
데이터 조회 위주
쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해준다.
3) CRM(Consumer Relationship Management)
고객관계관리
고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것
4) SCM(Supply Chain Management)
공급망 관리
기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것
5) ERP(Enterprise Resource Planning) : 전사적 자원관리, 경영자원을 하나의 통합 시스템으로 재구축
6) RTE(Real Time Enterprise)
회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템
회사 전 부문의 정보를 하나로 통합
7) BI(Business Intelligence)
기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 프로세스
질의(query), 보고(reporting), 온라인 분석처리(OLAP), 통계분석, 예측, 데이터마이닝 등의 결합
8) EAI(Enterprise Application Integration)
기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동하여 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것
손쉬운 확장 : 새로운 애플리케이션 도입 시 어댑터(Adapter)만 필요
9) KMS(Knowledge Management System)
기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
객체지향 DBMS : 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS
데이터웨어하우스 : 방대한 조직내 분산된 데이터베이스 관리시스템을 통합, 운영 시간성을 가지는 비휘발성 데이터의 집합
SQL : 데이터베이스와 통신을 위해 고안된 언어
2장. 데이터의 가치와 미래
빅데이터
- Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
3V : Volume(양), Variety(다양성), Velocity(속도)
산업계 : 양질 전환 법칙, 고객 데이터 축적
학계 : 거대 데이터 활용 과학 확산
관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
산업혁명의 석탄과 철 : 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적 변화를 가져올 것
21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer
플랫폼 : 그 자체로 플랫폼 역할
사전처리 → 사후처리
표본조사 → 전수조사
질 → 양
인과관계 → 상관관계
사생활침해 → 동의에서 책임으로
책임 원칙 훼손 → 결과 기반 책임 원칙 고수
데이터 오용 → 알고리즘 접근 허용
1) 데이터 : 모든것의 데이터화
센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.
제조업에서 서비스업으로
2) 기술: 알고리즘, 인공지능
3) 인력 : 데이터사이언티스트, 알고리즈미스트
데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요
알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요
연관규칙 학습 : 상관관계
유형분석 : 분류
유전 알고리즘 : 최적화, 점진적으로 진화
기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악
감정분석
소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
1. 빅데이터 회의론의 원인
부정적 학습효과 : 과거의 고객관계관리(CRM) ~ 공포마케팅, 투자대비 효과 미흡
부적절한 성공사례 : 빅데이터가 필요없는 분석사례, 기존 CRM 분석 성과
데이터 분석 기반 경영 문화의 부재
데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만들어 내는 체계가 없었다.
싸이월드 : 직관에 근거해 의사결정. 중요한 의사결정이 데이터 분석에 기초하지 않음
OLAP와 같은 분석 인프라를 갖추고 있었지만 직관을 토대로 내린 의사결정을 보조하는 수준에 그쳤다.
성공적인 인터넷 기업 : 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공
직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요하다.
데이터의 양 대신 다양성에 초점. 새롭고 다양한 정보 원천의 활용
무작정 빅데이터를 찾는 것이 아닌, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다.
전략과 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로 시장과 고객 변화에 대응할 수 있을 때 빅데이터 분석은 가치를 줄 수 있다.
데이터사이언스
1. 데이터사이언스
과학과 인문의 교차로
데이터로부터 의미있는 정보를 추출(분석)하고 효과적으로 구현하고 전달
정형/비정형의 다양한 데이터를 대상
총체적 접근법
전략적 통찰 ~ Soft Skill
강력한 호기심
인문학적 통찰에 근거한 합리적 추론
Analytics(분석) & IT 전문성 & 비즈니스 컨설팅(커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등)
Hard Skill + Soft Skill
1) Hard Skill
- 빅데이터에 대한 이론적 지시 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
2) Soft Skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야간 협력 : 커뮤니케이션
1) 컨버전스 → 디버전스
2) 제품생산 → 서비스
3) 생산 → 시장창조
공급자 중심의 기술 경쟁 → 암묵적이고 함축적 지식인 무형 자산
산출물 → 창조과정
1) 1단계 : 디지털화(Digitalization)
가치를 형상화, 표준화
아날로그 세상을 어떻게 효과적으로 디지털화하는가
2) 2단계 : 연결(Connection)
다양한 디지털 정보를 필요한 사람에게 연결해서 효과적이고 효율적으로 정보를 연결 및 제공
디지털 정보와 대상들의 연결을 얼마나 효과적이고 효율적으로 제공해 주는가
3) 3단계 : 에이전시(Agency)
개인과 기기, 사물에 이르는 방대한 정보를 하이퍼 연결을 통해 필요한 정보를 효과적으로 제공하고 관리할 수 있는 시대로 발전
복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리해주는가
인간의 해석이 개입 → 사람에 따라 전혀 다른 해석과 결론.
모든 분석은 가정에 근거
< Data 관련 기술 >
1. 개인정보 비식별 기술
1) 데이터 마스킹
데이터의 속성을 유치한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성. 데이터 변조
개인의 사생활 침해 방지, 응답자의 비밀사항 보호하면서 통계자료의 유용성을 최대한 확보.
2) 가명처리
3) 총계처리
4) 데이터 값 삭제
5) 데이터 범주화
1) 데이터 무결성
데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한을 두어 데이터의 정확성을 보증
개체 무결성, 참조 무결성, 범위 무결성
2) 데이터 레이크 : 수 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관 없이 데이터를 저장