이상거래탐지를 위한 실시간데이터 처리와 금융사기 행동 분석

키키·2021년 9월 23일
0

FDS

목록 보기
1/2

📎이상거래탐지를 위한 실시간데이터 처리와 금융사기 행동 분석 - 카카오페이 데이터분석팀
위 영상을 보고 정리한 글

1. 이상 거래 사례와 FDS

이상 거래 사례

피싱으로 사용자에게 사기를 침 -> 사용자는 피싱범에게 송금/물건 구매 -> 이상거래 Fraud

FDS

Fraud Detection System | 평소와 다른 금융 패턴을 감지

FDS의 기본적인 구조

FDS Detection의 현실


FDS는 거래데이터 뿐만 아니라, 다양한 행동데이터들도 시간 단위로 ETL하여 사용자 특성을 파악하는데 사용

ETL
추출(Extract), 변환(Transform), 로드(Load) 의미
조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용되는 방법

하지만, 행동데이터의 경우 대용량데이터에 있어서 빠르게 변화하는 이상거래 패턴을 실시간 대응하는데에 한계가 있음

행태 정보 외에도 모든 데이터를 실시간 모니터링해야 한다는 니즈가 존재

RMS

Risk Management System | 중요한 곳의 데이터를 실시간 수집하여 잠재적 위험을 관리

2. 위험 관리를 위한 RMS 프로젝트 개발기(Platform)

RMS의 시스템 요구사항

서비스와의 최소한의 디펜던시
룰 + 모델 실시간 모니터링
대시보드

모니터링 시스템 구현

특히 Akka는 유연하고 기민한 대처 가능

실시간으로 쏟아지는 데이터 속에서 rule 방식, ML, DL 모델을 통해 감시 가능케 하고, 이러한 감시 통계데이터를 실시간으로 확인할 수 있도록 risk management system을 구축

3. 데이터 분석 여정(Analyze)

이러한 환경 위에 올라가는 모델들의 장단점과 문제들을 해결하기 위해 관계와 행적의 관점에서 데이터를 어떻게 분석했는지

사용되는 FDS 모델의 장단점

Risk Management System 에 사용되는 FDS 모델

Unsupervised

군집에서 벗어난 outlier를 찾는 역할
장점

  • 기존에 확인하지 못했던 새로운 행동 관찰 가능
  • 새로운 사기수법 빠르게 인지 후 확산 차단

단점

  • 명확한 평가 기준의 부재
  • 무언가를 잡는다는 목적에는 위력이 약함

supervised

장점

  • 목표 값에 개입을 하므로 비교적 높은 정확도

단점

  • 라벨된 데이터 확보의 어려움
  • 변화하는 사기방법에 따른 유연한 대응이 힘듬

Rule Based Algorithm

장점

  • 빠른 대응이 가능
  • 결과에 대한 명확한 이해 가능

단점

  • 구체화된 조건을 사용함으로 인해 유연성이 떨어짐
  • 사람의 인력이 많이 들어감

✔ 모델들을 상호보완하여 안정적인 시스템을 만들어나가는 것이 중요

우리가 놓치고 있는 것은 무엇인가?
-> 순간만 보는게 아닌 전체를 바라보자
-> 관계와 행적의 관점

관계(Relation) 관점에서의 데이터 분석

비슷한 성향을 갖는 사람들끼리의 관계를 통해, 단일 유저만으로 파악할 수 없던 것들을 알아낼 수 있을 것이라 생각
Graph Network 활용
계좌 관계를 활용한 계좌 network에 관한 연구

Money Flow - Account Network

사용자가 돈을 보내고 받는 행위를 하지만, 결국 재화의 흐름은 계좌를 통해 발생

계좌 = 돈이 들어가고 나가는 출입구

계좌를 파악하여 페이 내 금융 흐름을 안정화
수상한 계좌 기점으로 Black List 파악 및 네트워크 Feature 추출을 통한 추가적인 단서 확보


어떠한 계좌와 계좌 사이에 공통으로 송금한 인원이 n명(threshold) 이상일 경우 연결
계좌들끼리 군집을 이룸

정말 비슷한 계좌들끼리 연결되었을까?

비정상적인 목적으로 사용되는 계좌간 네트워크 형성 확인, Black list 파악

생성 소멸주기 파악

Account Immigration, 계좌가 사라져도 계좌의 주인은 새로운 이상목적 계좌에 터전을 잡을 것이다.

가설) 급격히 소멸되는 계좌 = 급격히 생성되는 계좌

비정상적 목적 계좌 추적 및 생성 초기단계 파악하기 위한 데이터 일단위 적재

(row 표기
pred_variation 소멸하는 계좌의 유저 하락률은 얼마인지
move_people 몇명의 사람들이 이동을 했는지
inv_repl_variation 생성되는 계좌의 유저 상승률을 얼마인지)

Relation Feature Flow

행적(History) 관점에서의 데이터 분석

어떠한 사람을 파악하기 위해 그사람의 과거 행적을 파악해야 함
또한 사기 거래의 경우, 기존의 행동과 다른 행동을 보임

기존의 행동을 정형화하고, 행동을 추적해야 함
ex) 테서렉트 과거의 행적을 시간의 흐름에 따라 파악함

Helix Structure

4차원을 3차원으로 한차원 낮추고, 그 중 두개의 차원을 현실공간으로 한개의 차원을 시간의 축으로 활용

ex) Helix Structure 예시 DNA 구조

Spiral Steps

나선계단의 한바퀴 = 24시간
나선계단의 층수 = 그날이 어떤 날인지
유저는 나선계단을 올라가게 되면서 시간을 걷게 되고 거래가 발생할 때마다 계단 위에 흔적을 남기게 됨

최종적으로 나선계단과 그 흔적들을 살펴보게되면 그 유저와 과거의 행적들을 얻을 수 있게 됨

유저 행적 시각화를 통해 유저에 대한 이해를 하고, 구조를 통해 feature를 뽑아 활용


feature 활용 예1 - Main Transaction Time
나선계단의 맨 위에서 아래를 바라보는 것과 같이, x평면에 구조를 projection
밀도기반 클러스터링 방법인 DBSCAN을 적용하면, 주요거래 시간을 추정 가능


feature 활용 예2 - Rapid Transaction & Transaction Speed
흔적과 흔적 사이의 라디안 차이를 계산하면, 거래 속도를 파악하는 것이 가능
3차원에서 밀도기반 클러스터링 적용, 연속거래 횟수 빈도와 최대 연속거래 횟수 파악 가능

이러한 feature들을 바탕으로 이 유저가, 이 시간에, 이러한 거래를 한다는 것에 대한 이상점수를 추정

금융흐름의 안정화 관점에서 데이터를 바라보았고, 유저의 순간의 모습 뿐만이 아닌 관계와 행적의 feature에 관하여 논함

"공격자는 항상 방어자보다 앞서나간다"
공격자들은 항상 새로운 사기 수법을 만들어 시스템의 허점을 발견한다.
우리는 최소한 그들과 동등한 위치에서 맞설 수 있도록 노력하고, 내가 공격자가 된다면이라 생각하여 허점을 찾아내야 한다.

0개의 댓글