# datacamp
pandas - Introduction to Data Engineering 220612
파이프 라인이라는 것이ETL, 즉 데이터 추출, 데이터 변형, 데이터 로드 => 이 과정을 일컫는 말이라고 생각하면 될 듯.데이터 수집 based on pandas2차원 데이터 구조columns(열)Rows(행, index 있음) => 기본 인덱스는 행 번호이지만 열을
ETL - Introduction to Data Engineering 220610
추츨, 변환 및 로드데이터 처리에 적합하지 않은 영구 저장소의 데이터를 메모리로 추출하는 것영구 저장소 ex) Amazon S3, SQL Database데이터 변환을 시작하기 전에 필요한 단계추출할 수 있는 파일은 많음Text files비구조화Plain TextFlat
개요 - Introduction to Data Engineering 220610
Data Camp - Data Enginner Career 복습데이터 사이언티스트를 보조하는 일이 데이터 데이터 엔지니어로서의 길임데이터베이스, 대규모 처리 시스템과 같은 아키텍쳐 구성, 테스트 및 유지하는 역할데이터 엔지니어는 데이터 대량 처리에 초점을 둔다기계 클러

Database Design - processing, storing and organizing Data
어떻게 데이터를 관리하고 organize(어울리는 한국어 생각안남..) 구조화?할 것인가Schemas: 데이터를 어떻게 logically organized 할 것인가Normalization: 데이터가 반드시 최소 독립적, 최소 중복적(redundancy)이어야 하는 것

Functions for manipulating data in SQL server
Remember, the most common date/time data types are:datetimedatetimedatetime2smalldatetimebinaryimagecursorrowversionuniqueidentifierxmlspatial geometr

Time-Series Analysis in SQL Server
datepart() datename()parts : year/month/dayday of yearday of weekdateadd : add dates with intervals: useful for converting one data type to another da

Introduction to Airflow in Python
A DAG stands for Directed Acyclic GraphIn Airflow, this represents the set of tasks that make up your workflowConsists of the tasks and the dependenci
9-2. Variables in Bash Scripting
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 9코스-2)Variables in Bash Scripting를 수강하고 그에 관련 내용을 적어보았다.🌱 출처 : Datacamp data enigneering track모르는 부분이나 헷갈렸던 부분은 계속 추가될
9-1. From Command-Line to Bash Script
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 9코스-1) From Command-Line to Bash Script를 수강하고 그에 관련 내용을 적어보았다. >🌱 출처 : Datacamp data enigneering track 모르는 부분이나 헷갈렸던 부

Unit testing for Data Science in Python
API ref: https://docs.pytest.org/en/6.2.x/reference.htmlAssert: 뒤의 조건이 true가 아니면 asserterror 리턴ref: https://wikidocs.net/21050general inform
7-3. Combining tools
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 7코스-3) Combining tools를 수강하고 그에 관련 내용을 적어보았다.🌱 출처 : Datacamp data enigneering track모르는 부분이나 헷갈렸던 부분은 계속 추가될 수 있다!cat 사용
Introduction to Bash Scripting
bash and sh are two different shells of the Unix operating system. bash is sh, but with more features and better syntax. Bash is “Bourne Again SHell”,
Data Processing in Shell
refs: https://kldp.org/node/137609\- : 축약\-- : 서술형supported by sql2csv : firebird, microsoft sql server, mysql, postgresqlnot MongoDB$ : shell va
8-4. Data Pipeline on the Command Line
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 8코스-4) Data Pipeline on the Command Line 를 수강하고 그에 관련 내용을 적어보았다.사례 연구로 Python을 사용하여 명령줄에서 Python을 실행하고, 패키지 관리자 pip를 사용하
8-3. Database Operations on the Command Line
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 8코스-3) Database Operations on the Command Line 를 수강하고 그에 관련 내용을 적어보았다.csvkit 라이브러리가 제공해야 하는 모든 것에 대해 더 깊이 알아봅시다. 특히 테이블
8-2. Data Cleaning and Munging on the Command Line
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 8코스-2) Data Cleaning and Munging on the Command Line 를 수강하고 그에 관련 내용을 적어보았다.command Line csvkit를 사용하여 추가 분석을 위한 데이터 준비하기
7-2. Manipulating data
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 7코스-2) Manipulating data를 수강하고 그에 관련 내용을 적어보았다. 🌱 출처 : Datacamp data enigneering track 모르는 부분이나 헷갈렸던 부분은 계속 추가될 수 있다!
8-1. Downloading Data on the Command Line
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 8코스-1) Downloading Data on the Command Line 를 수강하고 그에 관련 내용을 적어보았다. command Line을 통해 웹서버에서 데이터 파일을 다운로드하는 방법 >🌱 출처 :

Writing functions in Python
Docstring formats google style Numpydoc reStructuredText EpyText Use functions to avoid repetition