빅데이터 관련 분야 (특히 Data Engineering, Visualization) 쪽으로 취업을 하고싶어 공부를 하던중 마냥 코테 준비만 하다가는 면접때 관련 질문을 물었을 때 내가 대답할 수 있는게 얼마나 있을까 싶었다.
그렇게 생각을 하다보니 이대로 있을 수 없다. 한번 아무 데이터셋이나 붙잡고 텀프라도 해보자 싶어서 구상을 하게 되었다.
그래서 사이트 Kaggle에서 여러 데이터셋을 보면서 참고할만한 코드와 데이터셋을 고르던 와중에 어떤 데이터셋을 발견했다.
요즘 상당히 유명한 우크라이나-러시아 전쟁에서 발생한 러시아 군물자 손실, 전쟁 중 사망자, 전쟁포로 등의 정보를 우크라이나 매체에서 수집하여 매일마다 갱신하는 포스트였다. 매일매일 갱신한다니 정말 대단하다는 생각이 들었고 거기에 올라온 연관 코드들을 보니 수준이 상당히 높고 알차서 이 정보를 참고로 한번 도전해보면 좋겠다라는 생각이 들어 주제를 구체화하기 시작했다.
먼저, 내가 주목했던 사실은
그래서 내가 생각한 주제는
우크라이나가 러시아에게 입힌 실질적인 손실량과 러시아 군대의 손실 가치를 분석해보자
이다.
자세한 내용은 여기에 작성해놓았다.
러시아 군물자의 대부분은 소련제이다. 즉 최소 50년은 됐다는거고 그말인 즉슨 50년전 물자에 대한 자세한 거래내역 혹은 공개된 물자 가치는 거의 없었다... 하나 잡고 30분동안 인터넷을 뒤져도 안나오는 경우도 있어 굉장히 난해했다. 그렇다고 최신 물품가격으로 평균을 잡기에는 괴리가 너무 컸기에
일단 한 물자 내에서 대다수를 차지하는 종류의 가격이 나온다면 그것으로, 아니라면 어느정도 참고 자료를 통해 임의의 값을 잡았다. 전문가가 아니라서 신뢰성이 많이 낮지만... 그 값 자체에 대한 신뢰성보다 실제 시각화 자체가 중요하다고 생각해서 일단 넘어갔다. 꼭 틀린 값이 있다면 태클 부탁드립니다 너무 어려워요
그리고 아예 군 물자랑 살짝 관련이 없거나 산정 자체가 난해한 물건들이 있었다.
데이터를 어떻게 가공했는지는 다음 포스트에서 해보도록 하겠다. 수준이 높진 않고 어떻게든 내가 원하는 데이터프레임을 만들기만 하자! 라는 느낌으로 작성했었다.
2022년 4월 14일 기준 데이터셋으로 진행되었다.
그래프를 보면 대공방어포가 가장 손실량이 높은($7,360M) 것을 볼 수 있다. 그 뒤로 상륙함($4,200M), 전투기($3,385.94M) 순이었다. 생각보다 미사일 시스템에 손실이 큰 것을 볼 수 있다.
찾아보니 생각보다 방공 미사일 시스템이 비싸더라. 구축비만 $115M에 미사일값만 $1M에 가깝다고 한다.
특이한 점은. 여러 기본적인 시각화 코드를 보면 APC(장갑수송차)와 Military Auto(기동차량)의 손실 비율이 매우 높게 산정되었지만 (당연히 손실량이 크므로)
가치를 중점으로 산정한다면 매우 적은 비중을 차지한다는 것을 알 수 있다.
plotly에서 이런식으로 Stacked 하여 Bar Graph를 작성할 수 있다. 한눈에 보기 좋은 도구라고 생각하여 사용하였다.
먼저 러시아 육군의 손실량이 제일 크다고 볼 수 있다. 나중에 나오지만 총 손실량은 $8952.336M이다. 한화로 약 10,960,926,866,640원. 약 11조원가량의 손해이다.
그 뒤로 공군 ($5216.34M. 6,386,704,124,100원, 약 6.4조), 해군 ($4200M. 5,142,333,000,000원, 약 5.1조)순이었다.
조사해보니 2021년 러시아 국방비는 전체 정부 지출의 약 14.5%인 3조 1,100억 루블(한화 약 47조 8,620억 원)로 책정되었는데. (참고했던 링크)
즉 1년 국방비의 47퍼센트가 단 49일만에 날아갔다고 볼 수 있다.
Pie 그래프를 통해 각 군 별로 얼만큼 손실을 보았는지 비율을 직관적으로 볼 수 있다.
육군은 46.7%, 공군이 28.4%, 해군이 22.9% 순이다.
각 일자별로 진행된 손실 선분그래프이다. 일자가 진행될수록 방공미사일 시스템에 대한 타격이 가장 큰 손해를 입혔음을 알 수 있다.
그리고 전투기나 헬리콥터로 인한 손실이 꾸준히 우상향하고 있는데 우크라이나의 대공방어망이 매우 훌륭하다는 사실도 알 수 있다.
일자별로 군 편제별 손실량을 합산하여 데이터를 가공해서 그래프를 그렸다.
특이한 점으로는 3월 1일을 기점으로 육군의 손실량이 각 해군, 공군을 초월하여 그 이후로 역전되지 않았다.
그에 반해 해군과 공군은 3월 26일 이후로 공군이 더 큰 손실량을 보이고 있다.
그 날에 얼마나 손실을 보았는지에 대한 그래프이다.
처음 데이터가 수집된 날 (2022년 2월 25일)을 제외하곤 3월 26일이 가장 큰 손실을 입은 날임을 알 수 있다.
먼저 제일 놀랐던게 우크라이나가 러시아에게 입힌 손실이 어마어마 하다는 것. 그리고 우크라이나에게 가장 큰 피해를 입힐거라 생각했던 공군에게 역으로 큰 피해를 입히고 있다는 사실이었다.
사실 우크라이나는 방공시스템이 선진국보단 안좋은데 군사력 세계2등인 러시아를 상대로 어떻게 그런 결과가 있을 수 있을까? 여러 기사를 찾아보니 결론적으론 러시아가 우크라이나의 시스템 안으로 들어와서 폭격을 하기때문이었다. 보통 대공방어망을 회피하면서 폭격하지 않나 싶지만...
이 프로젝트를 진행하면서 느낀 것이 여러가지 있다.
다음 포스트로는 데이터 현황과 가공을 위해 어떻게 했는지 작성해보려고 한다. 공부하면서 하는거라 부족함이 많다... 더 열심히 공부해야겠다 싶다.
+ 사진에 있는 x축, y축 글꼴 크기가 너무 적어서 18pt 이상으로 수정했음 다만 마지막 그래프는 각 일자별 데이터가 많아서 글꼴 크기가 제한됨 그래서 더 보이게 하기는 힘들듯 함.