# bigdata

104개의 포스트
post-thumbnail

Database Web App Design Development-(2)

Uniform Resources Locators(URL) URL은 웹에서 포인터의 기능을 제공한다. 예시: http://www.myweb.com/dbstore/application/dbprogram 프로토콜: "http"는 Hyper Text Transfer Protocol을 나타낸다. 이는 웹 문서가 어떻게 액세스되어야 하는지 나타내는 부분이다. 이외에도 https, ftp 등 다양한 프로토콜이 있다. 도메인 이름: "www.myweb.com"는 인터넷상의 기계의 고유 이름을 나타냅니다. 이 이름을 통해 특정 서버로 연결할 수 있다. 문서 또는 리소스 경로: "/dbstore/application/dbprogram"는 기계 내의 문서나 리소스를 식별하는 부분이다. 이 경로는 기계 내의 파일 경로이거나, 프로그램의 식별자가 될 수 있다. 또한 프로그램에 전달될 인수(파라미터)를 포함할 수도 있다. 예를 들면, http://www.google.com/search?q

2023년 9월 13일
·
0개의 댓글
·
post-thumbnail

Database Web Application Design and Development

데이터베이스는 크게 전통적인 관계형 데이터베이스와 비관계형 데이터베이스로 구분될 수 있고, 그 외에도 분석과 운영 목적에 따라 분류될 수 있습니다. "빅 데이터" 환경에서는 특히 다양한 데이터 유형과 대량의 데이터를 처리하기 위해 다양한 데이터베이스 시스템이 사용된다. 관계형 데이터베이스(Relational Database) 예: Oracle, MySQL, PostgreSQL, MS SQL Server 정규화된 데이터 구조와 SQL(Structured Query Language)을 사용하여 데이터를 저장하고 검색한다. 테이블 간의 관계를 통해 데이터의 무결성을 유지하고 중복을 최소화한다. 비관계형 데이터베이스(Non-Relational Database) Document-based: 예를

2023년 9월 11일
·
0개의 댓글
·
post-thumbnail

Database and Big Data Applications Introduction

DBPL Database Programming Language의 약자이다. 데이터베이스 관리와 데이터 조작을 위해 설계된 프로그래밍 언어를 가리킨다. 전통적인 프로그래밍 언어와는 달리, DBPL은 데이터의 저장, 조회, 수정 및 관리에 특화된 기능들을 제공한다. 데이터베이스 프로그래밍 언어의 기능 데이터 정의 : 테이블, 인덱스, 뷰, 제약 조건 등 데이터베이스 스키마 객체를 정의하거나 변경할 수 있는 기능. 데이터 조작 : 데이터를 삽입, 수정, 삭제하거나 조회할 수 있는 기능. 트랜잭션 관리 : 데이터베이스 연산의 원자성, 일관성, 격리성 및 지속성(ACID 속성)을 보장하기 위한 기능. SQL(Structured Query Language)은 가장 널리 알려진 DBPL 중 하나로 SQL은 관계형 데이터베이스에서 데이터 정의, 조작 및 관리를 위한 표준 언어로 사용된다. 또한, 일부 데이터베이스 시스템은 특정 언어의 확장 버전을 제공하여 프로시저

2023년 9월 6일
·
0개의 댓글
·
post-thumbnail

[빅데이터를 지탱하는 기술] 1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임

데이터 처리와 스크립트 언어 —인기 언어인 파이썬과 데이터 프레임 일반적인 데이터 수집방법 파일 서버에서 다운로드 인터넷 경유의 API (원시 데이터 그대로는 BI 도구로 읽을 수 없어 **전처리가 필요한 데이터도 있음) 이때 가장 많이 사용하는 것이 스크립트 언어이다. 데이터 분석 분야에서 자주 사용되는 스크립트 언어 R(통계 분석을 위해 개발된 언어) 파이썬(데이터 엔지니어 사이에서 인기가 많은 언어) 파이썬이 인기가 많은 이유 통계 분석에 특화된 R과 비교했을 때, 파이썬은 범용의 스크립트 언어로 발전한 역사가 있고, 다양한 분야의 라이브러리를 사용할 수 있다. 특히 외부 시스템의 API를 호출하거나, 복잡한

2023년 4월 7일
·
0개의 댓글
·
post-thumbnail

[빅데이터를 지탱하는 기술] 1-2. 빅데이터 시대의 데이터 분석 기반

빅데이터 기술이 기존의 데이터 웨어하우스와 다른 점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다. 여기서 그 차이점에 관해 설명한다. 빅데이터의 기술 빅데이터 기술 💡 분산 시스템을 활용하면서 데이터를 순차적으로 가공해 나가는 일련의 구조 데이터 파이프라인 💡 일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템 빅데이터의 파이프라인은 어디에서 데이터를 수집하여 무엇을 실현하고 싶은 지에 따라 변화한다. 처음에는 간단한 구성으로도 끝나지만, 하고 싶은 일이 증가함에 따라 시스템은 점차 복잡해지고 그것을 어떻게 조합시킬지가 문제가 된다. 데이터 수집 —벌크

2023년 4월 7일
·
0개의 댓글
·
post-thumbnail

[빅데이터를 지탱하는 기술] 1-1. 빅데이터의 정착

분산 시스템에 의한 데이터 처리의 고속화 > 빅데이터의 취급이 어려운 이유 > > 1. 데이터 처리에 수고와 시간이 걸린다. > 2. 데이터의 분석 방법을 모른다. 데이터가 있어도 그 가치를 창조하지 못하면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것이 한정됨 → 위 두 가지를 갖춰야 비로소 가치 있는 정보를 얻을 수 있음 빅데이터 기술의 요구 — Haddop과 Nospl의 대두 Hadoop 💡 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 예를 들어, 전 세계의 웹페이지를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하다. 그러기

2023년 4월 7일
·
0개의 댓글
·
post-thumbnail

DX, Big Data, Data mining

DX, Digital Transformation DX란 Digital Transform의 약자로, 디지털 기술을 활용하여 기업의 비즈니스 영역에 존재하는 아날로그 적 프로세스로 새로운 서비스로 전환시키는 것을 말한다. 기업간 거래를 통해 고객 기업의 문화, 방향성, 가능성 등을 고려하여 고객 기업이 제공하고자 하는 맞춤 솔루션을 제공한다. 일련의 예로, AWS가 있다. AWS는 아마존이 가진 대규모 IT 인프라를 고객 기업에게 임대해 주는 대표적인 B2B 서비스이다. 주로 사물인터넷, 인공지능, 클라우드 ,빅데이터 등의 기술들을 중점으로 하여 DX 전환이 이루어진다. Big Data 빅데이터란, 디지털 환경에서 발생하는 대용량의 데이터를 기반으로 새로운 가치와 결과를 분석, 추출하는 기술이다. 단순히 데이터가 많다고 빅데이터라기 보다는 대량의 데이터 간의 연관관계나 연산을 통해 나타날 수 있는 모든 일련의 과정을 빅데이터 작업이라 할 수 있다. 사용자의 데이터를 비

2023년 3월 30일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop 3.3.0 standalone 서버 구축 삽질기

여기를 참고해서 작성했습니다 0. 설치 환경 > OS: Ubuntu 20.04 JDK: OpenJDK 11.0.18 Hadoop: Hadoop 3.3.0 1. JDK 설치 Hadoop은 Java 언어로 쓰여 있어 이를 실행하기 위한 Java runtime이 필요 이전 버전까지는 JDK 8 버전만 지원했으나, Hadoop 3.3 이후로 JDK 11 버전도 지원 1.1. JDK 설치 설치 가능한 패키지 리스트 최신화 후, OpenJdk 11 설치 (Oracle JDK 설치해도 무방 - 라이선스 확인 필요) 1.1. Java 버전 체크 아래와 같이 자신이 설치한 버전이 출력되는지 체크 2. Hadoop 계정 추가 보안상 계정을 분리하는게 좋기 때문에 새 계정을 추가 계정 이름을 hadoop으로 설정 3. SSH 인증키기반 인증

2023년 3월 23일
·
0개의 댓글
·
post-thumbnail

[BigData] Spark 책

나의 스파크 공부 책은 > > #### 이 책이다. > #### 이 책은 스파크 실행부터 다양한 라이브러리를 사용하는 방법에 대해 알려준다. 가장 인상 깊었던 것이 두 가지 있다. > #### 1. Hadoop을 설치하지 않고 Spark를 바로 설치한 것. > #### 2. Spark 환경에서 머신러닝 라이브러리를 제공해, 일반 컴퓨터에서도 GPU만큼은 아니지만, 그래도 조금 더 빨리 데이터를 처리할 수 있는 것. > #### 우선, 1번은 원래대로면 Spark도 Hadoop기반이라 Hadoop을 반드시 설치해주어야 하는 줄 알았는데, Hadoop을 설치 안해도 곧장 돌아가서 신기했다. > #### 2번은 생각의 전환이 필요했다. 보통 빅데이터로 머신러닝 프로그램을 짠다고 하면, '빅데이터

2022년 12월 22일
·
0개의 댓글
·
post-thumbnail

[BigData] Spark

**위의 사진은 망나니개발자님의 티스토리에서 가져왔습니다. ![](https://velog.velcdn.com/

2022년 12월 22일
·
0개의 댓글
·
post-thumbnail

[BigData] Hadoop

**위의 사진은 네이버 블로그에서 가져왔습니다. ![](https://velog.vel

2022년 12월 22일
·
0개의 댓글
·
post-thumbnail

[BigData] Cluster System

**위의 사진은 제가 학부 때 소속되어 있던 연구실에서 진행한 하둡을 이용한 빅데이터 처리 과정을 사진으로 담은 것입니다. ![](https://velog.velcdn.com/

2022년 12월 22일
·
1개의 댓글
·
post-thumbnail

빅데이터 프레임워크 비교 분석

빅데이터 처리로 하둡이 대표적입니다. 그렇다면 오늘 빅데이터 프레임워크인 Hadoop, Spark, Hive 하지만 추구하는목적과 용도가 다른 세 프레임에 대해서 알아봅시다. 빅데이터 분석 최근 기업에서 데이터 분석에 관심을 갖고 데이터 분석 기반의 의사결정을 내리고 있습니다. 이런 빅데이터를 다룰 때 가장 일반적으로 쓰이는 기술은 하둡의 MapReduce의 연관기술인 Hive입니다.* MapReduce는 슈퍼 컴퓨터 없이 서버를 여러대 연결해 빅데이터 분석을 가능*하게 했습니다. 하지만 기술이 나오고 시간이 한참 지난 뒤부터 여러 단점이 보이기 시작했습니다. 그래서 대안으로 나온 것이 스파크입니다.* MapReduce와 비슷한 목적의 업무를 수행하는 데 메모리 활용이 굉장히 빠른 데이터 처리 특징*을 가지고 있습니다. 이제 각각의 프레임워크에 대해서 알아봅시다. Hadoop ![](https://velog.velcdn.com/images/baeyun

2022년 12월 7일
·
0개의 댓글
·

[BigData] Text Mining

Text Mining & Data Visualization VS model in practice Documen & query are represented by term vectors Terms are not necessarily orthogonal to each other Synonymy : car vs automobile Polysemy : fly (action vs insect) How to build such a space Automatic temr expansion Construction of thesaurus Clustering of words Word sense disambiguation Dictionary-based Relation between a pair of words should be similar as in text and diction

2022년 11월 28일
·
0개의 댓글
·

[IT] 빅데이터(Big Data)란 무엇일까?

🤔 빅데이터란? 빅데이터(Big Data)란 말 그대로 '큰' 데이터이다. 보다 구체적으로 말하자면 기존 데이터베이스 관리 기준을 벗어난 수준의 방대한 양의 데이터이다. 이에 다양한 종류의 데이터를 종합한다면 정치, 사회, 경제, 문화, 과학 기술 등 다양한 분야에서 인간에게 가치있는 정보를 제공할 수 있다. 📌 빅데이터 활용 사례 빅데이터는 가공 전 무엇을 수집하는지, 가공 후 어떻게 활용하는지에 따라 다양한 모습으로 변화할 수 있기 때문에 활용 사례들이 매우매우 다양하다! Ex1. KT 통신 빅데이터 활용 통신 데이터를 수집한다면 개인의 움직임, 특성, 관심, 행동에 대한 분석 활용이 가능하다. 실제로 전국의 모든 상업용 건물 및 사업체 정보를 기반으로 매장 매출 분석 및

2022년 11월 26일
·
0개의 댓글
·

[BigData] Text Mining

Text Mining Text data mining Sentiment analysis Document summarization News recommendation Text analytics in financial services Text analytics in healthcare How to perform text mining? As computer scientists, we view it as Text Mining = Data Mining + Text Data Text mining vs NLP,IR,DM... How does it relate to data mining in general? How does it relate to computational linguistics? How does it relate to information retrieval? ![](https://velog.velcdn

2022년 11월 22일
·
0개의 댓글
·
post-thumbnail

Hadoop WordCount 오류 정리

Hadoop 설치 완료 후 발생한 오류 ** hdfs namenode -format 오류** 오류: JAVA_HOME is not set and could not be found 해결: hadoop/etc/hadoop의 hadoop-env.sh에서 JAVA_HOME 경로 설정 (경로 설정에서도 여러 번의 시도가 있었음) 2. jps 했을 때 5개가 아닌 1개만 보임 다음과 같이 ResourceManager만 나옴 원인: start-dfs.sh와 start-yarn.sh 할 때 오류가 발생했었음 3. dfs 실행시 아래와 같이 가 발생 ![](https://velog.velcdn.com/images/chajy/post/b0

2022년 11월 16일
·
0개의 댓글
·

[Big Data] 하둡(Hadoop)

하둡(Hadoop)이란 무엇인가? 하둡은 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)의 약자로 오픈소스, Java 기반의 빅데이터 어플리케이션용 데이터 처리와 스토리지를 관리하는 빅데이터 분산 플랫폼이다. 컴퓨터 여러대를 연결하여 하나의 클러스터를 구성하고 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 병렬식으로 실행한다. 하둡의 구성요소 하둡은 크게 4대의 주요 모듈로 구성됩니다. Hadoop Common 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈 Hadoop HDFS 분산 저장을 처리하기 위한 모듈 여러개의 서버(노드)를 하나의 서버(클러스터)처럼 묶어서 데이터를 저장 Hadoop YARN 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당 Hadoop MapRe

2022년 11월 13일
·
0개의 댓글
·
post-thumbnail

[aws] EMR basic (1)

빅데이터 이야기... '분산'이라는 사상이 아주 중요하다. 저장소를 분산해보자는 개념에서 HDFS가 등장했고, 처리를 분산해보자는 생각에서 Map Reduce가 등장했고, 이외의 것들도 분산처리를 해보자는 개념에서 YARN이 등장했다. 빅데이터 이야기에서는 '분산'이 아주 중요한 키워드라고 생각된다. Map Reduce Map reduce는 데이터를 처리하기 위한 시스템이고 Map 단계와 Reduce단계 두가지로 구분이 된다. Map reduce 작업이 시작되면 HDFS로 부터 파일을 가져오고, Map reduce 작업이 끝나면 HDFS에 파일이 써진다. YARN ![](https://velog.velcdn.com/images/shwjd1017/post/1ca61360-15f4

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

[DB] NoSQL Column-oriented, Column Family DB

1. Column-oriented DB Column-oriented Data Table을 Column 단위로 쪼개어 저장하는 DB를 의미 [그림1] 일반적인 RDBMS에서 이용하는 Row-oriented 기법과 Column-oriented 기법을 비교하는 그림 Row-oriented는 하나의 Row가 하나의 Disk Block 안에 저장 Column-oriented 방식은 하나의 Column이 하나의 Disk Block 안에 저장 * Row-oriented * 4개의 Block을 읽고 안의 Gender값을 알아내어 Sum을 수행 * Column-oriented * 1개의 Block만 읽고 결과를 구할 수 있기 때문에 빠른 처리가 가능 📌 Data

2022년 11월 8일
·
0개의 댓글
·