(ν•΄λ‹Ή 글은 μ•„λž˜ λͺ…μ‹œν•œ 좜처의 글을 ν•œκΈ€λ‘œ 각색 및 μš”μ•½ν•œ λ‚΄μš©μž…λ‹ˆλ‹€.)
πŸ”₯ μ΅œμƒμœ„ 데이터 μ—”μ§€λ‹ˆμ–΄λ“€μ˜ 곡톡점

1️⃣ 데이터λ₯Ό νλ¦„μœΌλ‘œ μ΄ν•΄ν•œλ‹€

이듀은 데이터λ₯Ό λ‹¨μˆœν•œ 값이 μ•„λ‹ˆλΌ, 흐름(flow) 으둜 λ΄…λ‹ˆλ‹€.

λΆ„μ‚° μ‹œμŠ€ν…œ(HDFS, S3), 배치 vs. 슀트림 처리 차이λ₯Ό μ§κ΄€μ μœΌλ‘œ 이해함.

μ €μž₯ 포맷(Parquet, Avro) μž₯단점을 λΉ λ₯΄κ²Œ νŒλ‹¨ν•  수 있음.

πŸ‘‰ 데이터λ₯Ό "μ–΄λ–»κ²Œ 졜적의 λ°©μ‹μœΌλ‘œ μ „λ‹¬ν• κΉŒ?"λ₯Ό λ¨Όμ € κ³ λ―Όν•©λ‹ˆλ‹€.


2️⃣ λ‹¨μˆœν•œ 코더가 μ•„λ‹ˆλΌ, 문제 ν•΄κ²°μžλ‹€

SQL만 μž˜ν•˜λŠ” 게 μ•„λ‹™λ‹ˆλ‹€. λ³΅μž‘ν•œ 문제λ₯Ό λ…Όλ¦¬μ μœΌλ‘œ ν•΄κ²°ν•˜λŠ” λŠ₯λ ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€.

Python, Scala, Javaλ₯Ό λŠ₯μˆ™ν•˜κ²Œ 닀루며, 가독성 쒋은 μ½”λ“œλ₯Ό μž‘μ„±.

μžλ£Œκ΅¬μ‘°μ™€ μ•Œκ³ λ¦¬μ¦˜μ„ μ΄ν•΄ν•˜κ³ , μ„±λŠ₯ μ΅œμ ν™” 감각이 있음.

πŸ‘‰ 이듀은 "μ–΄λ–»κ²Œ ν•˜λ©΄ 더 효율적으둜 문제λ₯Ό ν•΄κ²°ν• κΉŒ?"λ₯Ό λŠμž„μ—†μ΄ κ³ λ―Όν•©λ‹ˆλ‹€.


3️⃣ μ„±λŠ₯ μ΅œμ ν™”λ₯Ό λ‹Ήμ—°ν•˜κ²Œ μ—¬κΈ΄λ‹€

이듀은 νŒŒμ΄ν”„λΌμΈμ„ λ§Œλ“€κ³  끝이 μ•„λ‹ˆλΌ, μ΅œμ ν™”λ₯Ό ν•„μˆ˜ κ³Όμ •μœΌλ‘œ μƒκ°ν•©λ‹ˆλ‹€.

Spark 디버깅 λŠ₯λ ₯이 λ›°μ–΄λ‚˜κ³ , 병λͺ© ν˜„μƒμ„ λΉ λ₯΄κ²Œ 찾음.

νŒŒν‹°μ…”λ‹, λ²„μΌ€νŒ…μ„ ν™œμš©ν•΄ λŒ€μš©λŸ‰ 데이터도 λΉ λ₯΄κ²Œ 처리.

πŸ‘‰ κ·Έλƒ₯ μž‘λ™ν•˜λŠ” μ½”λ“œκ°€ μ•„λ‹ˆλΌ, "졜적의 μ„±λŠ₯을 λ‚΄λŠ” μ½”λ“œ"λ₯Ό λ§Œλ“­λ‹ˆλ‹€.


4️⃣ ν΄λΌμš°λ“œλ₯Ό μ œλŒ€λ‘œ ν™œμš©ν•œλ‹€

λ‹¨μˆœνžˆ ν΄λΌμš°λ“œλ₯Ό μ‚¬μš©ν•˜λŠ” 게 μ•„λ‹ˆλΌ, λΉ„μš©κ³Ό μ„±λŠ₯을 κ³ λ €ν•œ 졜적의 쑰합을 μ°ΎμŠ΅λ‹ˆλ‹€.

AWS, GCP, Azure ν™œμš©μ— λŠ₯μˆ™ν•˜λ©°, EMR, Databricks, Kubernetes의 차이λ₯Ό λͺ…ν™•νžˆ 이해.

Terraform 같은 IaC(Infrastructure as Code) 도ꡬλ₯Ό λŠ₯μˆ™ν•˜κ²Œ λ‹€λ£Έ.

πŸ‘‰ "μ–΄λ–€ μ„œλΉ„μŠ€λ₯Ό μ‚¬μš©ν• κΉŒ?"κ°€ μ•„λ‹ˆλΌ, "κ°€μž₯ 효율적인 쑰합은 λ¬΄μ—‡μΌκΉŒ?"λ₯Ό κ³ λ―Όν•©λ‹ˆλ‹€.


5️⃣ 데이터 ν’ˆμ§ˆμ„ μ² μ €νžˆ κ΄€λ¦¬ν•œλ‹€

λ§Žμ€ 데이터보닀 μ‹ λ’°ν•  수 μžˆλŠ” 데이터가 μ€‘μš”ν•¨μ„ μ••λ‹ˆλ‹€.

데이터 검증 및 λͺ¨λ‹ˆν„°λ§(Great Expectations λ“±) ν™œμš©.

데이터가 μ–Έμ œ, μ–΄λ””μ„œ, μ–΄λ–»κ²Œ μƒμ„±λ˜μ—ˆλŠ”μ§€ λͺ…ν™•νžˆ 좔적 κ°€λŠ₯.

πŸ‘‰ "이 데이터가 μ •ν™•ν•œκ°€?"λ₯Ό 항상 λ¨Όμ € κ³ λ €ν•©λ‹ˆλ‹€.


πŸ’‘ μ΅œμƒμœ„ 데이터 μ—”μ§€λ‹ˆμ–΄λ“€μ˜ λ§ˆμΈλ“œμ…‹

βœ… μ£ΌμΈμ˜μ‹ – 문제λ₯Ό λκΉŒμ§€ ν•΄κ²°ν•˜λŠ” νƒœλ„.
βœ… ν˜ΈκΈ°μ‹¬ – λ‹¨μˆœν•œ μ‚¬μš©μ΄ μ•„λ‹ˆλΌ, 원리λ₯Ό 깊이 이해.
βœ… μ‹€ν–‰λ ₯ – 이둠이 μ•„λ‹ˆλΌ, μ‹€μ œλ‘œ μ‹€ν—˜ν•˜κ³  κ°œμ„ .
βœ… λΉ„μ¦ˆλ‹ˆμŠ€ 감각 – 데이터λ₯Ό 톡해 μ‹€μ œ κ°€μΉ˜λ₯Ό μ°½μΆœν•˜λŠ” 사고방식.

πŸ‘‰ 이듀은 "쒋은 μ—”μ§€λ‹ˆμ–΄"κ°€ μ•„λ‹ˆλΌ, "λΉ„μ¦ˆλ‹ˆμŠ€μ— κΈ°μ—¬ν•˜λŠ” μ—”μ§€λ‹ˆμ–΄"μž…λ‹ˆλ‹€.


✨ μ΅œμƒμœ„ 1% 데이터 μ—”μ§€λ‹ˆμ–΄λŠ” μ΄λ ‡κ²Œ λ‹€λ₯΄λ‹€

βœ… 데이터λ₯Ό νλ¦„μœΌλ‘œ μ΄ν•΄ν•˜κ³ , 졜적의 섀계λ₯Ό 고민함.
βœ… μ„±λŠ₯ μ΅œμ ν™”κ°€ λͺΈμ— λ°°μ–΄ 있음.
βœ… ν΄λΌμš°λ“œλ₯Ό λ‹¨μˆœ μ‚¬μš©μ΄ μ•„λ‹ˆλΌ, 효율적으둜 ν™œμš©ν•¨.
βœ… 데이터 ν’ˆμ§ˆμ„ μ² μ €νžˆ κ΄€λ¦¬ν•˜λ©°, μ‹ λ’°ν•  수 μžˆλŠ” 데이터λ₯Ό λ‹€λ£Έ.
βœ… λ‹¨μˆœν•œ 코더가 μ•„λ‹ˆλΌ, 문제 ν•΄κ²° λŠ₯λ ₯을 κ°–μΆ˜ μ „λ¬Έκ°€.

πŸ’‘ 졜고의 데이터 μ—”μ§€λ‹ˆμ–΄λ“€μ€ λ‹¨μˆœνžˆ νˆ΄μ„ 잘 μ“°λŠ” 것이 μ•„λ‹ˆλΌ, λ°μ΄ν„°λ‘œ κ°€μΉ˜λ₯Ό λ§Œλ“œλŠ” μ‚¬λžŒλ“€μž…λ‹ˆλ‹€.


β–Ά 좜처 : https://blog.det.life/i-interviewed-200-data-engineers-heres-what-separates-the-best-from-the-rest-3092524e5875

profile
데이터 μ—”μ§€λ‹ˆμ–΄μ˜ μž‘μ—…κ³΅κ°„ / #PYTHON #CLOUD #SPARK #AWS #GCP #NCLOUD

0개의 λŒ“κΈ€

Powered by GraphCDN, the GraphQL CDN