Blog by Shin & Co

1. "The ChatGPT Moment for Physical AI"

2026년 현재, 로보틱스는 단순히 명령을 수행하는 단계를 넘어, 물리 법칙을 이해하고 자율적으로 행동하는 'Physical AI' 시대로 진입했습니다. 과거의 로봇이 사전에 정의된 '스크립트'에 의존했다면, 이제는 거대 모델이 시각과 언어를 직접 물리적 행동으로 변환하는 VLA 모델을 통해 비정형 환경에서도 임무를 완수합니다.

2. 핵심 기술 패러다임의 변화

2.1 "Scripts"에서 "Missions"으로의 전환

과거 (Deterministic): 수만 줄의 C++ 코드로 관절 각도와 이동 경로를 일일이 지정 (Hard-coded).
현재 (Agentic): "작업대를 정리해줘"라는 목적(Goal) 기반의 미션을 주면, AI가 실시간으로 주변을 인식하고 스스로 행동 시퀀스를 생성.

2.2 VLA (Vision-Language-Action): 뇌와 신체의 직결

VLA는 로봇이 보고(Vision), 이해하고(Language), 행동하는(Action) 과정을 하나의 거대한 신경망으로 통합한 것입니다.

통합 신경망: 과거에는 '인식 -> 판단 -> 계획 -> 제어'의 단계가 분리되어 있었으나, VLA는 시각 정보가 입력되면 즉각적인 모터 제어 신호를 출력합니다.
관련 영상: Figure AI - Helix 02: Full-Body Autonomy

2.3 World Models: '물리적 상식'과 추론의 탄생 (Next Step)

VLA가 "지금 무엇을 할까?"에 집중한다면, 월드 모델은 **"내가 이렇게 하면 미래에 어떤 일이 벌어질까?"**를 예측하는 기술입니다. 이는 로봇이 물리적 실수를 줄이고 인간처럼 '생각하고 움직이는' 핵심 동력이 됩니다.

개념: LLM이 다음 단어를 예측하며 문맥을 익히듯, 월드 모델은 **'물리적 다음 장면(Next Frame)'**을 예측합니다.
물리적 인과관계 학습: "이 유리컵을 밀면 바닥으로 떨어져 깨질 것이다"라는 결과를 실제로 해보지 않고도 뇌 안에서 시뮬레이션합니다. 이를 통해 로봇은 처음 보는 복잡한 환경에서도 시행착오를 최소화합니다.
Google DeepMind 'Genie': 텍스트나 이미지만으로 물리 법칙이 완벽히 적용된 상호작용 가능한 가상 세계를 실시간으로 생성하는 모델입니다. 로봇은 이 안에서 상상(Mental Simulation)을 통해 수억 번의 훈련을 거칩니다.
Genie 3: Creating dynamic worlds that you can navigate in real-time

[AI and Robot] 1-1. AI와 로봇의 패러다임 변화

1. "The ChatGPT Moment for Physical AI"

2. 핵심 기술 패러다임의 변화

2.1 "Scripts"에서 "Missions"으로의 전환

2.2 VLA (Vision-Language-Action): 뇌와 신체의 직결

2.3 World Models: '물리적 상식'과 추론의 탄생 (Next Step)

PDF 출력 옵션