주제 > * 사용자의 이미지 파일을 입력값으로 받아 닮은꼴 연예인을 출력값으로 보여주기 CNN기법으로 미리 학습시킨 연예인 범주 내에서 출력 개요 >* 프로젝트 제목 : Project Face "닮은꼴 찾기" 인원 / 기간 : 6명 / 2023.05.15 ~ 2023.05.18 🛠️ 사용 기술 Python Django WSL (Ubun...
개요 윈도우 8대 노트북을 우분투 22.04 LTS를 이용하여 각각의 서버로 만들어 하둡 구성하기 최종 프로젝트를 준비하던 중 데이터가 많아 결과를 보기까지가 오래걸려 분산처리를 한다면 얼마나 시간을 단축할 수 있을까?에 대한 생각으로 온프레미스 환경으로 노트북 8대를 연결하여 Hadoop 클러스터를 구성하였다. 데이터를 HDFS에 밀어넣어 PySpark를...
Spark 설치 후 SparkSession 띄우기 이전에 작성했던 걸 보고 client에서 PySpark를 설치했다. 설치 후 datanode1~5에 spark 파일을 복사하였다. Spark 설치하기 <- spark_encore.tar.gz로 압축하여 각 노드에 ssh로 접속 후 압축 해제하는 과정을 진행했다. scp ./spark_encore.tar....
이전 포스트에서 다뤘던 spark 세션을 띄우고자 했지만, 실패한 것에 해결에 대한 기록 pyspark --master yarn --num-executors 5 명령어를 이용하여 YARN으로 PySpark를 실행하였지만, 이건 pyspark kernel이 아니라 Python 3 이었다. 단일 노드에서 spark를 사용하는 로컬 세션을 생성했던 것이었다...
slack_sdk를 활용하여 airflow 알리미 만들기 > 목표 : 프로젝트 중 무기 데이터의 집계를 하기 위한 데이터를 주기적으로 받아 GCP 스토리지에 저장해야 하는 작업이 필요했다. Raw Data를 받아와 우리가 사용할 데이터로 전처리하고 파싱하는 dag를 짰고, 이것이 잘 수행 중인지에 대해 slack bot을 통해 알림을 받고자 한다. 봇 만...
7월 프로젝트로 진행하였던 배틀그라운드 API를 활용한 사이트(pd.gg)에 웹 기능 구상도 내가 주로 다루었던 페이지는 빨간색으로 표시한 무기 분석 페이지다. 필요한 데이터 파싱하기 배틀그라운드 개발자 센터 유저 정보 페이지에서 본인의 무기 숙련도 Top3을 보여줄 때 사용 유저 간 전투 데이터 > **무기
무기 데이터 분석하기 > 나는 이 프로젝트에서 무기 데이터 부분을 맡았다. RAW DATA에서 무기 데이터 관련만 파싱하는 코드, 그 데이터를 가지고 무기 티어, 무기 별 상성을 최신화 하는 airflow dag 코드를 작성했다. 완성 화면 과정 > 앞서서 유저 정보 페이지에서 유저가 가장 많이 사용하는 숙련도 top3을 보여주어 자신이 가장 잘 다...
완성 화면 > 데이터 분석 과정 무기 상성과 무기 티어표 1. 무기 상성 > 개인전의 경우 killerweapon과 finisherweapon이 같아 문제가 없었지만, 다인전(듀오나 스쿼드) 의 경우 교전한 데이터인 killerweapon과 마지막 한발만을 친(막타) finsiherweapon에 차이가 있었다. 게임 내에서 교전 시에 승률을 알고 싶었...
쇼핑몰 로그 데이터 분석해보기 >8대로 구성된 하둡, 스파크 클러스터를 활용하여 데이터 분석 흐름도 (예상안) 데이터셋 - (eCommerce behavior data from multi category store) 데이터셋 구조 을 확인해보니 아래와 같이 되어있었다. 총 322656건이 자료가 조회됐다. > 매치 데이터
쇼핑몰 데이터 EDA > 캐글에서 가지고 온 쇼핑몰 로그 데이터(8,9월 자료)를 병합하여 탐색한 내용 데이터 합치기 스파크 세션을 띄우고 스키마를 자동으로 설정하게 하고, 헤더가 있는 자료라는 옵션을 주어 불러왔다. 이후 union을 이용하여 합쳤다. union - 데이터를 합치고 중복된 행을 제거 unionAll - 데이터를 합치고 중복된 행을 유...