쇼핑몰 데이터 EDA > 캐글에서 가지고 온 쇼핑몰 로그 데이터(8,9월 자료)를 병합하여 탐색한 내용 데이터 합치기 스파크 세션을 띄우고 스키마를 자동으로 설정하게 하고, 헤더가 있는 자료라는 옵션을 주어 불러왔다. 이후 union을 이용하여 합쳤다. union - 데이터를 합치고 중복된 행을 제거 unionAll - 데이터를 합치고 중복된 행을 유...
노트북 8대를 이용하여 클러스터를 구축 >openVPN을 통해 학원IP가 아니더라도 연결하여 작업을 수행할 수 있게 만들어 주었다. Spark 클러스터 모드로 데이터 전처리 하기 df.printSchema()을 확인해보니 아래와 같이 되어있었다. 총 322656건이 자료가 조회됐다. > 매치 데이터
완성 화면 > 데이터 분석 과정 무기 상성과 무기 티어표 1. 무기 상성 > 개인전의 경우 killerweapon과 finisherweapon이 같아 문제가 없었지만, 다인전(듀오나 스쿼드) 의 경우 교전한 데이터인 killerweapon과 마지막 한발만을 친(막타) finsiherweapon에 차이가 있었다. 게임 내에서 교전 시에 승률을 알고 싶었...
무기 데이터 분석하기 > 나는 이 프로젝트에서 무기 데이터 부분을 맡았다. RAW DATA에서 무기 데이터 관련만 파싱하는 코드, 그 데이터를 가지고 무기 티어, 무기 별 상성을 최신화 하는 airflow dag 코드를 작성했다. 완성 화면 과정 > 앞서서 유저 정보 페이지에서 유저가 가장 많이 사용하는 숙련도 top3을 보여주어 자신이 가장 잘 다...
7월 프로젝트로 진행하였던 배틀그라운드 API를 활용한 사이트(pd.gg)에 웹 기능 구상도 내가 주로 다루었던 페이지는 빨간색으로 표시한 무기 분석 페이지다. 필요한 데이터 파싱하기 배틀그라운드 개발자 센터 유저 정보 페이지에서 본인의 무기 숙련도 Top3을 보여줄 때 사용 유저 간 전투 데이터 > **무기
쇼핑몰 로그 데이터 분석해보기 >8대로 구성된 하둡, 스파크 클러스터를 활용하여 데이터 분석 흐름도 (예상안) 데이터셋 - (eCommerce behavior data from multi category store) 데이터셋 구조 는 실제 운영체제 위에 가상화 소프트웨어를 설치한 후에 소프트웨어를 통해 하드웨어(CPU, Memory, Disk, NIC 등)를 에뮬레이션한 후에 이 위에 운영체제(Guest OS)를 설치하는 것을 의미합니다. 가상화를 해 주는 소프트웨어를 하이퍼바이저(Hypervisor) 라고 하며 종류로는 이 책에...
host 이름 변경 hostnamectl set-hostname client clinet로 이름 변경 sestatus 운영체제 보안 설정 확인 sudo sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config > chatGPT 명령어정리 sudo: 명령어를 관리자 권한으로 실행하...
Virtual Box 설치 >실행 시 오류 메세지를 보고 설치 c++ 2019 redistributable 검색 후 파일 다운받기 CentOS 설치
준비 putty 접속 순서대로 실행 su hadoop start_dfs start_yarn start_mr Spark 실행 nohup pyspark --master yarn --num-executors 3 & 웹사이트에 client:8888로 접속 (client가 탄력적 ip가 아니라면 ec2에서 퍼블릭 Ipv4 주소 복사후 :8888 해주기 주피터 ...
Spark 설치 wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz 해서 다운로드 받기 tar xzf spark-3.2.4-bin-hadoop3.2.tgz 압축 해제 mv ./spark-3.2.4-bin-hadoop3.2 ./spark 이름 바꾸기 conf 파일 ...
Hive 예제 사용해보기 (영화 크롤링 파일) > Hive를 이용하여 영화 크롤링 파일 mapreduce 해보기 hadoop 유저 접속 제공해준 파일 tmdb.zip 파일 받기 clinet 에서 실행 unzip 설치 잘들어갔는지 확인 (namenode:500
Hadoop에서 wordcount 하기 putty 접속 후 hdfs에 새로운 폴더 생성 hdfs에 데이터 넣기 Hadoop Cluster에서 텍스트 파일 검색하기 Hadoop MapReduce의 예제 중 하나인 grep 실행 하둡 클러스터에서 텍스트 파일을 검색 >/mydata 경로에 있는 텍스트 파일을 dfs[a-z.]+라는 문법 (dfs가 들어...
저장소 지정(workers) 하기 datanode1, datanode2, datanode3 입력 workers 파일 복사(scp 사용법) 다른 서버끼리 미리 ssh 연결되어 있어야 scp 명령어 사용 가능 이 작업을 완료하면 worker 노드를 식별하고 클러스터의 구성을 설정, 작업 분산을 할 수 있음 하둡 서버의 resource map ec2 보...