연습 문제 풀기 1) customers의 customerNumber를 조회하세요 2) payments의 amount의 총합과 checknumber개수를 구하세요 3) products의 productName, productLine을 조회하세요 4) products의 productCode의 개수를 구하고, 칼럼 명을 n_product로 변경하세요 ...
의사결정나무
앙상블
WSL이란? > * WSL(Windows Subsystem for Linux)은 Windows 10 운영체제에서 Linux 커널과 호환성을 지원하는 환경을 제공하는 기술이다. WSL을 사용하면 기존의 VM(Virtual Machine)을 실행하며 발생하는 CPU와 Memory의 문제나 복잡한 네트워크 설정 없이도 Windows10 혹은 Windows Ser...
전이학습이란? > * 전이학습 정의 : 한 설정에서 학습한 것을 다른 설정의 일반화를 개선하기 위해 활용 하는 것 소스과제에서 습득한 지식을 타깃 과제 학습 시 추가로 입력 전이학습 방법 딥러닝 시스템은 전통적인 머신러닝 시스템보다 더 많은 훈련 시간과 데이터의 양이 필요 다양한 최첨단의 딥러닝 네트워크가 컴퓨터 비전 및 자연어 처리(NLP)와 같은 영...
클래스란? > * 클래스는 객체의 구조와 행동을 정의 클래스를 기반으로 생성된 객체는 인스턴스(instance)라고 부름 같은 클래스의 여러 인스턴스는 같은 특성을 가지면서 각각 독립된 상태를 유지 class 키워드를 이용한 클래스 정의 > 베이스 클래스를 지정하면 지정한 베이스 클래스의 특성을 상속해 서브 클래스를 정의할 수 있음 베이스 클래스를 지정할...
클래스 인스턴스의 모형이 되는 객체 클래스는 인스턴스를 만들기 위한 모형 클래스에서 정의하는 것은 인스턴스 변수나 인스턴스 메서드뿐만 아니라 클래스 변수나 클래스 메서드도 클래스의 일부로 정의 클래스 변수나 클래스 메서드는 클래스 객체의 속성이기 때문에 인스턴스가 없이도 이용할 수 있음 클래스 변수 클래스 객체에 속한 변수로 클래스 객체에서 참조할 수 있...
도커 볼륨(volume)이란? > 도커 볼륨은 호스트 서버에 존재하며 컨테이너 속 파일들을 연동시키기 위해 사용 도커 컨테이너 공유 -v 실습 > Docker의 '-v' 옵션 - 호스트와 컨테이너 간의 디렉토리를 공유하는 기능 컨테이너를 생성한 뒤 /home/testdir_2 경로에 test파일이 있는 지 확인했다. 홈 디렉토리(~)에 호스트 디렉토...
django(장고)란? >* 장고는 웹 프로그램을 쉽고 빠르게 만들어 주는 웹 프레임워크다 장고는 웹 프로그램을 쉽고 빠르게 만들 수 있도록 도와주는 웹 프레임워크이다. 웹 프레임워크란? >* 웹 프레임워크는 웹 프로그램을 만들기 위한 스타터 키트라고 생각하면 된다. 그리고 파이썬으로 만들어진 웹 프레임워크 중 하나가 바로 장고이다. 브랜치란? >*...
RNN이란? >* RNN(Recurrent Neural Network)은 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델 순환 신경망(Recurrent Neural Network)은 시퀀스(seqence) 데이터를 사용 시퀀스 데이터란 시계열 데이터라고도 한다. 시점에 따라 데이터가 달라지는 것을 의미 텍스트와 같이 순서에...
크론탭(crontab)이란? >크론탭(crontab)은 리눅스 운영체제에서 배치 작업을 스케쥴링 하기 위한 프로그램 크론탭을 이용하면 특정 시각에 작업이 실행되게끔 할 수도 있고, 정기적인 작업 스케쥴링을 할 수도 있다. 네이버 주식 정보 스케줄링 실습 > 네이버 주식 정보 가져오기(크롤링) batch.sh 파일 생성
DataBase : instacart 설명 orders (3.4m rows, 206k users): . order_id: order identifier user_id: customer identifier eval_set: which evaluation set this order belongs in (see SET described b...
AWS VPC 아키텍처 구성 VPC 생성 > VPC란? Amazon Virtual Private Cloud(Amazon VPC)를 사용하면 정의한 논리적으로 격리된 가상 네트워크에서 AWS 리소스를 시작할 수 있다. 이 가상 네트워크는 AWS의 확장 가능한 인프라를 사용한다는 이점과 함께 고객의 자체 데이터 센터에서 운영하는 기존 네트워크와 매우 유사하다...
AWS 하둡 구성하기 aws ec2에 hadoop 인스턴스 세팅 완료 후 최종적으로 4개의 인스턴스를 구성 hadoop / hadoopnamenode / hadoopsecondnode / hadoop_datanode > Hadoop 서버 설정 hadoop 인스턴스에 putty로 접속 ec2-user로 접속 후 sudo visudo 입력 100번째 줄로...
저장소 지정(workers) 하기 datanode1, datanode2, datanode3 입력 workers 파일 복사(scp 사용법) 다른 서버끼리 미리 ssh 연결되어 있어야 scp 명령어 사용 가능 이 작업을 완료하면 worker 노드를 식별하고 클러스터의 구성을 설정, 작업 분산을 할 수 있음 하둡 서버의 resource map ec2 보...
Hadoop에서 wordcount 하기 putty 접속 후 hdfs에 새로운 폴더 생성 hdfs에 데이터 넣기 Hadoop Cluster에서 텍스트 파일 검색하기 Hadoop MapReduce의 예제 중 하나인 grep 실행 하둡 클러스터에서 텍스트 파일을 검색 >/mydata 경로에 있는 텍스트 파일을 dfs[a-z.]+라는 문법 (dfs가 들어...
Hive 예제 사용해보기 (영화 크롤링 파일) > Hive를 이용하여 영화 크롤링 파일 mapreduce 해보기 hadoop 유저 접속 제공해준 파일 tmdb.zip 파일 받기 clinet 에서 실행 unzip 설치 잘들어갔는지 확인 (namenode:500
Spark 설치 wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz 해서 다운로드 받기 tar xzf spark-3.2.4-bin-hadoop3.2.tgz 압축 해제 mv ./spark-3.2.4-bin-hadoop3.2 ./spark 이름 바꾸기 conf 파일 ...
준비 putty 접속 순서대로 실행 su hadoop start_dfs start_yarn start_mr Spark 실행 nohup pyspark --master yarn --num-executors 3 & 웹사이트에 client:8888로 접속 (client가 탄력적 ip가 아니라면 ec2에서 퍼블릭 Ipv4 주소 복사후 :8888 해주기 주피터 ...
Virtual Box 설치 >실행 시 오류 메세지를 보고 설치 c++ 2019 redistributable 검색 후 파일 다운받기 CentOS 설치
host 이름 변경 hostnamectl set-hostname client clinet로 이름 변경 sestatus 운영체제 보안 설정 확인 sudo sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config > chatGPT 명령어정리 sudo: 명령어를 관리자 권한으로 실행하...
Vagrant란? 가상화(Virtualization)는 실제 운영체제 위에 가상화 소프트웨어를 설치한 후에 소프트웨어를 통해 하드웨어(CPU, Memory, Disk, NIC 등)를 에뮬레이션한 후에 이 위에 운영체제(Guest OS)를 설치하는 것을 의미합니다. 가상화를 해 주는 소프트웨어를 하이퍼바이저(Hypervisor) 라고 하며 종류로는 이 책에...
스파크 세션 열기 > 스키마는 DataFrame의 컬럼명과 데이터 타입을 정의 CSV나 JSON 같은 일반 텍스트 파일을 사용하면 다소 느릴 수 있음 하지만 Long 데이터 타입을 Integer 데이터 타입으로 잘못 인식하는 등 정밀도 문제가 발생할 수 있음 따라서 운영 환경에서 추출, 변환, 적재를 수행하는 ETL 작업에 스파크를 사용한다면 직접 스키마...
VirtualBox 실행 > VirtualBox를 켜서 가상머신 4개 창을 계속 띄우니 화면이 복잡함 bat파일을 통해 창을 백그라운드에서 실행 > bat 파일이란? BAT 파일은 Batch 파일의 줄임말로, 윈도우 기반 컴퓨터에서 실행되는 스크립트 파일 이 파일 형식은 .bat 확장자를 가지며, 한 개 이상의 명령어를 포함하여 일련의 작업을 자동화할 ...