분석가의 ChatGPT 활용기

baekdata·2023년 4월 23일
1

서론

요즘 세상은 데이터가 매우 중요한 자원이 되었습니다. 기업이나 개인이 가지고 있는 데이터를 분석하여 적절한 결정을 내리는 것이 경쟁력 있는 비즈니스를 운영하는데 필수적입니다. 이러한 상황에서 데이터 분석가는 매우 중요한 역할을 담당하게 됩니다.
그러나 데이터 분석이란 쉬운 일이 아니며, 많은 분석 도구와 기술을 숙지하고 있어야 합니다. 이에, 인공지능 모델인 ChatGPT를 활용하여 데이터 분석가로서의 역량을 강화하는 방법에 대해 알아보려고 합니다.

서론 작성은 chatGPT에게 부탁 해보았습니다. 반신반의했는데, 제가 말하고자 했던 바를 완벽히 작성해 주었네요.

본론

** 여기서부터는 제가 작성했습니다. :)

Statista의 분석에 따르면, chatGPT는 불과 5일만에 100만 사용자를 확보했다고 합니다. 넷플릭스가 3.5년, 트위터가 2년이 걸렸던 것을 보면 정말 어마어마한 수치입니다. 데이터분석가로 일하면서, 느낀 업계에서의 파장도 엄청났던 것 같습니다.

제가 처음 chatGPT를 접하게 된 계기는 분석가 동료의 소개였습니다. 소개받고, chatGPT에게 첫 질문을 던졌을 때의 충격이 생각납니다. 당시에, 고민하고 있던 문제가 있어서 접근하는 방법을 물어봤는데 기대하는 것 이상의 답변이 돌아왔었습니다.

이전에 써 본 챗봇과 비슷한 성능을 가질 것이라고 생각 했는데, 그 이상의 퍼포먼스를 보여주고 있어서 굉장히 놀랐던 기억이 있습니다. 특히, 문맥을 이해하는 능력과 이전에 답변해 준 내용에 대한 추가 설명을 요구했을 때 완벽히 답하는 모습에 약간의 두려움도 느꼈습니다.

이제 데이터 분석가로서 업무에 ChatGPT를 사용한 지 약 2달 정도가 되었습니다. 2달 정도 chatGPT를 사용하며, 할 수 있는 영역과 할 수 없는 영역을 어느정도 구분할 수 있게 되었는데요.

변화의 속도가 매우 빨라, 시의성이 조금은 떨어지는 글이지만, 데이터 분석가로서 ChatGPT를 활용하는 방식에 대해 소개하려고 합니다. 그리고, chatGPT가 아직은 잘할 수 없는 영역과 더 잘 사용하기 위한 몇가지 팁도 소개하도록 하겠습니다.

chatGPT 활용기

1) 생각이 고립될 때, 아이디어 얻기

입사하기 전 생각했던 데이터 분석가는 손이 이리저리 날아다니며, 코드를 짜는 모습을 상상했었는데요. 실무에서의 데이터분석가는 고민하는 시간이 더 많다는 것을 알게 되었습니다.

특히, 데이터 분석의 경우 정답이 딱히 정해지지 않은 영역에 대해 답을 내려야 하는 부분이 있다 보니 생각과 고민의 연속입니다. 분석에 대한 가설을 어떻게 세워야 할지, 세운 가설이 진짜 타당한지 확인하려면 어떤 방법, 어떤 지표를 사용하면 좋을지 등 무엇인가 구상하는 시간이 더 길었습니다.

이때, chatGPT에게 물어보면 훌륭한 답변을 통해 갇혀있던 생각을 깨는 데 도움을 줄 수 있습니다. 이때, 저는 마치 옆자리 동료에게 고민을 털어놓듯이 편히 물어보고는 했는데요. 예를 들면, 아래와 같은 질문과 답을 받을 수 있습니다.

chatGPT가 첫 번째 방법으로 A/B 테스를 소개 해주었는데요. 제가 풀고자 하는 문제에서는 A/B 테스트를 할 수 없는 상황이었습니다. 그래서, 이런 추가 질문을 던져 보았습니다.

~할 수 없는 상황이라면, 가정 추가

네, 제 상황을 정확히 이해하고 적절한 답을 준 것 같습니다. 이처럼, 분석에 대해 처음 길을 잡기 어려울 때, 혹은 생각이 갇혔거나 아예 방법들에 대한 이해가 없을 때 위와 같은 질문을 통해 더 나은 분석을 진행할 수 있습니다.

2) 잘 알려진 분석 방법론에 대한 설명과 예시 코드 얻기

이미 잘 알려진 분석 방법론에 대해 물어본다면 더 좋은 답을 얻을 수 있습니다. 통계학에서 가장 많이 사용하는 분석 기법 중 하나인 회귀 분석을 예로 들어 보겠습니다.

제가 풀고 싶은 문제를 “유저의 이탈에 영향을 주는 요인 분석”이라고 가정해보겠습니다. 먼저, 어떤 흐름으로 분석하면 좋을지 물어보았습니다.
다음으로, 회귀 분석을 실제로 Python으로 수행하기 위한 예제 코드를 요청 할 수 있습니다
다음으로, 회귀 분석 결과를 해석하는 방법에 대해서도 물어보았습니다. 이처럼, 하나의 잘 알려진 방법에 대해서라면 해당 방법론의 개념, 예시 코드, 해석 방법, 주의 사항 등에 대한 도움을 얻을 수 있습니다. 물론, 구글링해도 잘 나오는 정보들이지만, 의식의 흐름대로 대화하듯이 질의하면 답을 얻을 수 있다는 게 큰 장점인 것 같습니다. 그리고, 긴 정보를 잘 요약해주기도 하니까요.

3) 코드 작성 어시스트로 활용하기

실무에서는, 종종 어렵지는 않지만 까다로운 작업을 해야 할 때가 있습니다. 바로, 분석 환경이 서로 다른 경우 코드 간 변환을 해야 하는데요. 예를 들어, SQL로 작성한 쿼리를 Pyspark 구문으로 변경해야 할 때가 있습니다. 이런 경우에 사용해보니, chatGPT의 진가를 확인할 수 있었습니다

놀랍습니다. 물론, 반대 상황도 가능하고 다양한 언어로의 변환이 가능합니다. 다음으로, 디버깅이 가능합니다. 일부러 쿼리문에서 오타를 하나 내봤는데요, 정확히 찾아내고 정답을 알려줍니다.

chatGPT로 (아직은) 도움받기 어려운 것

1) 실무에서 분석 문제 자체를 해결하기에는 적합하지 않음

chatGPT를 데이터 분석 문제 자체를 아직은 해결하기 어렵다고 생각한 첫 이유는, 보안 문제입니다. 일반 버전의 chatgpt는 성능 개선을 위해 입력한 데이터를 임의로 사용할 수 있습니다. 내가 입력한 데이터가 저장되고 학습되어서 제 3자에게 노출 될 수 있습니다. 만약, 회사 내 내부정보나 소스 코드 혹은 매출 등 데이터가 외부로 노출 된다면 보안 이슈로 이어질 수 있습니다. 이런 상황이기에, 데이터를 마구잡이로 사용할 수 없습니다.

데이터 입력 문제가 있습니다. 데이터 분석을 위해서는 대용량의 데이터가 적재되어 있고 해당 테이블을 활용하여 분석을 해야하는데, 현재 구조상에서는 몇백만 혹은 몇억 건의 데이터를 넣고 분석을 요청하기는 어렵습니다.

다만, 위에서 언급한 문제들은 생각보다 간단하게 풀릴 수 있고, 버전이 상위 버전으로 업그레이드 되면서 충분히 풀 수 있는 문제라고 생각하기에 (아직은)이라는 표현을 덧붙였습니다.

2) 모든 데이터를 믿고 사용할 수는 없음

chatGPT 현재 버전의 데이터는 실시간 데이터가 아니며, 2021년까지의 데이터이기 때문에 틀린 정보가 있을 수 있습니다. 또한 22년 이후의 데이터는 chatGPT가 알지 못하기 때문에, 21년 이전의 데이터에 대해서만 신뢰할 수 있습니다.(3.5 버전 기준)

또한, chatGPT 모델 특성상 확률적으로 다음 단어가 무엇일지 예측하는 모델이기에 결과상 오류가 발생할 수도 있습니다. 그리고, 해당 답변이 오류가 있는 답변인지 역시 확인이 어렵습니다. 이에 따라, 현재 버전까지의 chatGPT를 사용할 때에는 신중한 검토가 필요합니다.

chatGPT와 잘 대화할 수 있는 팁

1) 영어로 질문해야 더 좋은 답변을 받을 수 있습니다.

본 글에서는 이해를 돕기 위해 한글로 질문하고 답변을 받았지만, 영어의 답변 퀄리티와 속도가 더 빠릅니다. chatGPT는 글자를 기억하는 단위로 토큰이라는 개념을 사용한다고 합니다. 훈련 데이터셋에서 자주 나오는 글이면 적은 토큰을 사용한다고 하는데요. 한글을 표현하는데에는 영어보다 약 4배 이상의 토큰을 사용한다고 합니다. 이에 따라서, 속도와 답변의 퀄리티 등에서 영어가 더 나은 모습을 보여줍니다. 되도록 영어로 질문하는 것이 좋고 불가할 경우에는 한글로 물어보고, 프롬프트 끝에 (영어로 답해줘) 붙여도 좋습니다.

2) 답변이 길어져 끊겼을 때는 continue를 사용하자.

답변이 길어져 끊겼을 때에는 continue라는 명령어를 넣어주면, 끊긴 부분부터 다시 답변을 이어줍니다.

3) 가정이나 배경 설명을 해주자.

chatGPT에게 무엇인가 물어볼 때에 조금 더 상황에 맞는 답변을 받기 위해서는, 상황에 대한 설명과 가정을 많이 해주면 더 나은 답변을 받을 수 있습니다. 예를 들어, “회귀분석의 개념에 대해서 설명해줄 수 있나요? 8살 아이에게 설명할 것입니다.”와 같이 어떤 상황인지 가정을 통해, 알려주면 좋습니다.

이상으로, chatGPT를 약 2달 간 실무에서 사용해보며, 잘 활용할 수 있는 영역과 한계점 그리고 약간의 팁을 공유드렸습니다. 글 읽어 주셔서 감사합니다!

profile
글쓰는 데이터 분석가

0개의 댓글