# dataframe

66개의 포스트
post-thumbnail

[Pandas] 데이터 살펴보기

df.head() : 데이터 상위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.tail() : 데이터 하위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.shape : 데이터의 (행, 열) 크기 확인df.info() : 전반적인 정보, 데이터 프레임의 행&열

2022년 6월 24일
·
0개의 댓글
post-thumbnail

[Pandas] 데이터프레임 연결/병합 : concat(), merge(), join(), append()

비슷한 듯 다른 문법이 너무 많다. 데이터프레임 병합하는 panda 함수들...1 concat() : 데이터프레임을 물리적으로 연결시켜 준다.인자값(파라미터)으로 리스트.아무 옵션 없이 합치면 각 데이터프레임의 인덱스를 그대로 사용하고 빈 부분은 NaN시리즈 데이터와

2022년 6월 23일
·
0개의 댓글
post-thumbnail

[Pandas] 데이터프레임 DataFrame

판다스란?R의 데이터프레임 데이터 타입을 참고하여 만든 것데이터프레임 3요소 - 컬럼, 로우(데이터), 인덱스다양한 데이터 타입 이용 가능 - list, dictionary, series, ndarray 등series들을 하나의 열로 취급한 집합이라 볼 수 있음데이터를

2022년 6월 20일
·
0개의 댓글

pandas DataFrame 생성 및 전처리 과정

pandas를 통해 DataFrame 생성 전처리 > 1. 필요없는 columns 제거, columns 이름 수정 > 2. 결측치, 중복 데이터 처리(제거 혹은 변경) > 3. 각 데이터의 type과 범위 확인 및 변경 => 이상치 확인 > 4. 이상치 처리(제거 혹은 변경) > 5. 데이터의 단위 통일, 분포 변환 > 6. 유의미한 결과 찾기 및 co...

2022년 6월 16일
·
0개의 댓글
post-thumbnail

csv파일 django model로 splite db에 저장하기

5천장의 사진데이터를 가져오고 사진과 함께 5천개의 데이터를 가져왔다. 가격정보, 이름, img_url까지 이 데이터를 dictionary에서 dataframe으로 바꾸고 다시 csv파일로 저장했다.이제 다음 단계로 우리 모델에 이 파일로 저장된 데이터를 가져와야 하는

2022년 6월 9일
·
0개의 댓글
post-thumbnail

파이썬으로 연동한 MYSQL - 날짜 입력에 따른 sql문 동작, 결과값 엑셀 파일로 저장

파이썬으로 MYSQL에 연동 후 원하는 날짜를 입력해 그에 맞는 데이터만 추출하기 위해 날짜를 입력받는 함수식을 추가했다이후 지표를 더 편하게 정리하기 sql 테이블 데이터를 python pandas 데이터프레임에 삽입 후 엑셀 파일로 추출하는 함수를 넣어 간단하게 복

2022년 5월 26일
·
0개의 댓글

python dataframe 값 복사

pandas의 데이터 타입인 dataframe의 경우 값을 복사할 때, 원본 dataframe의 값은 그대로 놔두고 싶은데 값을 바꾸면 원본 값이 바뀌는 경우가 발생한다. 이 경우

2022년 4월 10일
·
0개의 댓글
post-thumbnail

Python Web Crawling _ CSV로 데이터 저장하기 [1]

1. 기본 세팅 2. 페이지 분석하기 3. 코드 작성 4. 실행 결과

2022년 4월 5일
·
0개의 댓글

Pandas: inplace

Pandas 수업을 듣다, 를 보고, inplace = True의 뜻은 뭘까?하는 의문이 들었다.우선 이해를 위해 예제를 하나 만들어보겠다.예제 출처 : playdata 김연지 강사님DataFrame을 더 효율적으로 사용하려면 모든 타입을 int로 바꿔주는 것이 좋다.

2022년 3월 30일
·
0개의 댓글
post-thumbnail

[판다스] 왕초보 판다스 - 개념과 시리즈, 데이터프레임 만들기

왕초보 판다스 시리즈 1편: 판다스(Pandas)는 파이썬에서 2차원 배열 데이터를 간편하게 다룰 수 있도록 만들어진 라이브러리다. 판다스의 개념과 판다스에서 사용하는 데이터 종류를 만들어보자!

2022년 3월 25일
·
0개의 댓글

내가 쓰려고 만든 pandas groupby

API를 개발할 때, DB에서 가져온 데이터를 전처리해서프론트가 사용하기 좋은 형태의 Response를 만들 필요가 있다.그 때 사용하면 좋은 것이 바로 pandas

2022년 3월 25일
·
0개의 댓글
post-thumbnail

R : Data Frame (데이터 프레임)

데이터프레임은 행과 열로 이루어진 데이터의 집합체로, 행렬과 유사합니다.가장 보편적인 데이터셋 형식이에요!하지만, 행렬과 다른 점은, 데이터프레임에는 자료형이 다른 데이터를 함께 입력할 수 있다는 점입니다.데이터프레임은 data.frame() 함수를 사용하여 만듭니다.

2022년 3월 7일
·
0개의 댓글
post-thumbnail

두 개의 DataFrame 비교하기

두개의 DataFrame 비교하기

2022년 2월 16일
·
0개의 댓글

[Pandas] Merging DataFrame

DataFrame에 대해 정리하기 앞서, 벤 다이어그램을 사용해서 기본적인 개념에 대해 익혀보자. 왼쪽 원은 대학교 학생들이고 오른쪽 원은 대학교 스탭이다. 겹치는 부분은 학생이자 스탭인 사람들이다. 각 원을 하나의 DataFrame이라고 할 때, 두 원의 합집

2022년 2월 9일
·
0개의 댓글
post-thumbnail

[Pandas] 3. DataFrame의 Join (merge)

innerleft outer joinright outer joinouter joinpd.merge(left, right, how, on, left_on, right_on, left_index, right_index)left : 왼쪽 DataFrameright : 오른쪽

2022년 1월 26일
·
0개의 댓글
post-thumbnail

[Pandas] 2. DataFrame

DataFrame이란 2차원 데이터 하나 이상의 Series가 모여있는 데이터

2022년 1월 26일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 7일차

집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 6일차

스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다.

2022년 1월 13일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 5일차

DataFrame은 Row타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. DataFrame의 스키마는 각 컬럼명과 데이터 타입을 정의하고, 파티셔닝은 DataFrame이나 Datset이 클러스터에서 물리적으로 배치되는 형태를 정의한다

2022년 1월 12일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 4일차

구조적 API에는 3가지 분산 컬렉션이 존재한다.DataSetDataFrameSQL 테이블과 뷰배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다.

2022년 1월 11일
·
0개의 댓글