AI, 어디로 갈 것인가

HYUNGU, KANG·2025년 2월 24일

이런저런 이야기들

목록 보기

15/24

아이디어는 필요에 의해서 만들어진다. 규모의 서비스에서 동작하는 AI Agent 를 만드려면 국가별로 수행하는 동작이나 데이터들이 각기 나뉘어서 관리되어야 하거나 코드 짜듯이 목적에 맞게 분리가 되어야 하기 때문에, 실제로 제품을 만들다 이런 문제 해결하려면 agent routing 이나 agent orchestration 같은것들이 필요하지 않을까 했는데 얼마 안가서 구체화된 개념이나 제품들이 속속이 등장했다.

지난 몇년간 내 기억속에서의 AI 발전 순서를 한번 톺아보고, 앞으로 어떤 일들이 필요하고 있게 될 지 한번 생각 해보고 개발자로서 일이나 투자 측면에서 활용하고 싶어 적어본다.

일단 떠오르는 순서대로 적어본다면

AI와 원활하게 대화하거나 효과적으로 지시하려면 어떻게 해야 할까? → 프롬프트 엔지니어링 (Prompt Engineering)
AI가 대화의 맥락을 기억하도록 만들려면? → 컨텍스트 윈도우 확대, 데이터베이스를 활용한 컨텍스트 주입
AI가 외부 지식을 학습하도록 하려면? → RAG (Retrieval-Augmented Generation), Vector DB
AI가 다양한 유형의 데이터를 처리할 수 있도록 하려면? → 멀티모달 (Multimodal AI)
AI가 외부 도구를 활용할 수 있도록 하려면? → Function Calling
AI와의 대화를 더 빠르고 비용 효율적으로 만들려면? → 프롬프트 캐싱 (Prompt Caching)
AI를 어떻게 사람 대신 활용할 수 있을까? → AI Agent
여러 AI 에이전트를 사람이 협업하듯이 효율적으로 조율하려면? → Agent Routing & Agent Orchestration

이걸 GPT 를 이용해서 조금 다듬어보면

AI가 어떻게 사람처럼 이해하고 대화할 수 있을까?
- 프리트레이닝 & 파인튜닝 (Pretraining & Fine-tuning)
- 이후, AI를 효과적으로 활용하는 기술로 프롬프트 엔지니어링 (Prompt Engineering) 등장.
AI가 어떻게 기억할 수 있을까?
- 컨텍스트 윈도우 확대 (더 많은 텍스트 기억 가능)
- 장기 메모리 (AI Memory) 및 DB를 활용한 컨텍스트 주입 연구.
AI가 어떻게 외부 지식을 학습할 수 있을까?
- RAG (Retrieval-Augmented Generation) + Vector DB
- 특정 기업에서는 Fine-Tuning & LoRA 방식도 활용.
AI가 어떻게 다양한 유형의 데이터를 처리할 수 있을까?
- 멀티모달 AI (Multimodal AI) (텍스트, 이미지, 음성, 영상 등 통합 이해)
AI가 어떻게 외부 도구를 사용할 수 있을까?
- Function Calling & Tool Use (API 호출, 검색, 코드 실행 등)
AI와의 대화를 어떻게 더 빠르고 저렴하게 만들 수 있을까?
- 프롬프트 캐싱 & 최적화 (Prompt Caching & Optimization)
AI가 어떻게 사람을 대신할 수 있을까?
- AI Agent & Autonomous AI (목표 설정 → 계획 → 실행 → 피드백)
AI 에이전트들이 어떻게 협업할 수 있을까?
- Agent Routing & Agent Orchestration (에이전트 간 역할 분배)
- Multi-Agent Collaboration (AI 에이전트들끼리 협력하여 문제 해결)

이걸 한번 더 높은 관점의 시각을 추가해서 다듬어보면

1단계: AI라는 '사람'을 만들다 (2000s~2020)

💡 핵심 개념: LLM (대형 언어 모델, Large Language Model)의 등장

산업혁명 초기에 기계가 등장했듯이, AI도 처음에는 단순한 자동화 도구였음.
그러나 GPT-3 (2020년) 이후, AI는 단순한 도구가 아니라 "사람처럼 이해하고 말하는 존재"가 됨.
기업들은 AI를 "하나의 인적 자원"으로 인식하기 시작함.

🔹 주요 기술:

LLM (Large Language Model)
Transformer Architecture (BERT, GPT-3 등)

2단계: AI라는 '사람'이 말을 잘 알아듣도록 학습시키다 (2020~2023)

💡 핵심 개념: AI의 이해력과 지능 향상

AI가 대충 알아듣는 수준이 아니라 정확하고 세밀하게 이해할 수 있도록 학습 과정이 정교화됨.
기존의 기계 학습 모델에서 벗어나, 대규모 사전 학습 (Pretraining) + 미세 조정 (Fine-Tuning) 과정이 발전함.
또한 AI가 단순히 텍스트뿐만 아니라, 이미지, 음성, 영상까지 다룰 수 있는 멀티모달 AI로 발전.

🔹 주요 기술:

Pretraining & Fine-Tuning (사전 학습 및 미세 조정)
Context Window 증가 (더 많은 대화 기억 가능)
Multi-Modal AI (텍스트 + 이미지 + 음성)

3단계: AI가 일을 더 효율적으로 할 수 있도록 도구를 쥐어주다 (2022~2024)

💡 핵심 개념: AI에게 "업무 수행 능력"을 부여

사람이 단순히 정보를 이해하는 것뿐만 아니라 생산성을 높이기 위해 도구를 사용하듯이, AI도 외부 도구를 활용할 수 있도록 발전.
AI가 단순히 답변을 생성하는 것이 아니라, "도구를 사용해 업무를 수행하는 기능"이 추가됨.
AI가 실시간 정보 검색, 문서 요약, 코드 실행 같은 업무를 할 수 있도록 함.

🔹 주요 기술:

RAG (Retrieval-Augmented Generation) → 외부 지식 검색
Vector Database (벡터 DB) → AI의 검색 능력 강화
Function Calling (API 호출) → 외부 프로그램 실행

4단계: AI가 알려주지 않아도 스스로 일을 하도록 만들다 (2023~현재)

💡 핵심 개념: AI가 "스스로 목표를 세우고, 계획을 수립하며, 실행하는 단계"로 발전

AI가 이제 수동적인 도구가 아니라, 자율적으로 일을 수행하는 존재가 됨.
산업혁명 시기, 기계가 단순 노동에서 자동 조립 라인, 로봇 생산 시스템으로 진화한 것과 비슷함.
기업들은 AI가 사람이 지시하지 않아도, "스스로 최적의 업무 방식"을 찾고 수행하도록 연구 중.

🔹 주요 기술:

AI Agents (자율 에이전트) → AI가 스스로 업무를 수행
Agent Routing (에이전트 역할 분배) → 여러 AI들이 각자 역할을 수행
Agent Orchestration (에이전트 협업 시스템) → AI들이 서로 협력하며 업무 자동화

그래서 앞으로 AI 는 어디로 갈까?

AI

AI는 생물체처럼 만들어지고, 학습하고, 도구를 사용하며, 점점 더 능동적으로 일할 수 있도록 발전해 왔다. 중간에 서번트 증후군처럼 하나에 특화된 목적을 가진 AI(제품) 들도 나오긴 했지만, 결국 모든 분야에서 평균적으로 1인분을 할 수 있는 AI(AGI 혹은 사람)를 만드는 느낌이랄까.

현재는 뭔가 뜬금없이 시장 전체가 "Agent"라는 키워드에 꼽혀서 집중하고 있는 느낌이다.
어떻게 보면 AI가 다양한 환경에 자연스럽게 녹아들 수 있도록 철길(Network/System)을 까는 과정으로 볼 수 있을 것 같다. CUA 같은 것들도 역시 그 일환중 하나로 보고있다.

Autonomous AI?

그러나 나는 AI의 자율적 수행은 결국 명령 아래에서 이루어져야 하며 최종 의사 결정권은 인간에게 있어야 한다고 생각하기 때문에, AI 가 모든걸 다하는 방향으로의 발전은 제약이 있지 않을까 하는 생각이 있다.

혼자서 0-1 까지 결과를 내는 자율 AI 는 특정 산업(예: 데이터 수집 및 분석)의 AI Agent 에서는 가능하겠지만 최종적으로 사회 전반에서는 여전히 인간의 의사 결정이 필요할것이기 때문에, 범용적으로 만나게 될 형태는 우리의 입력에 즉각적으로 반응하고 도와주는 Companion Agent 형태가 좀 더 보편적으로 자리잡지 않을까 한다.