
중국의 AI 스타트업 딥시크(DeepSeek)가 최신 거대언어모델(LLM) R1의 업데이트 버전을 발표하며 글로벌 AI 시장에서 미국과의 경쟁을 재점화했다.
30일 IT 업계에 따르면 딥시크는 지난 29일 딥시크 R1의 업데이트 버전인 R1-0528을 공개했다.
이번 업데이트는 수학, 프로그래밍, 창의적 글쓰기, 도구 호출 등 다방면에서 성능을 크게 개선하며 오픈AI의 o3 모델에 필적하는 경쟁력을 입증했다. 특히 비용 효율성과 오픈소스 접근성을 강조한 R1-0528은 AI 기술 자립을 목표로 하는 중국의 야심을 드러낸다.
환각(할루시네이션) 문제도 약 50% 줄였다. 딥시크는 강화 학습(Reinforcement Learning, RL)과 최소한의 지도 미세 조정(Supervised Fine-Tuning, SFT)을 결합한 하이브리드 학습 방식을 통해 이를 달성했다고 밝혔다. 이는 민감한 작업에서 신뢰성을 높이는 데 기여한다.
창의적 글쓰기 성능도 한 단계 도약했다. 문학적 표현, 스토리텔링, 마케팅 콘텐츠 제작에서 자연스러운 텍스트를 생성하며 사용자 맞춤형 콘텐츠 제작에 적합하다. 다국어 지원이 강화됐으나, 영어와 중국어 중심의 학습 데이터로 인해 한국어 성능은 LG의 엑사온, 네이버의 하이퍼클로바X, 솔트룩스의 루시아에 비해 다소 뒤처질 것으로 보인다.
도구 호출 기능은 대폭 개선됐다. API를 통한 데이터베이스 조회, 실시간 웹 검색, 코드 실행 등을 지원하며, SQL 쿼리 생성이나 알고리즘 트레이딩 전략 개발에서 효율적인 워크플로우를 제공한다. 특히 HTML, CSS, JavaScript를 활용한 프론트엔드 코드 생성 능력이 향상돼 웹 애플리케이션 프로토타입 제작과 UI/UX 디자인 작업을 가속화한다. 역할극(Role-Playing) 기능도 강화돼 AI가 특정 캐릭터나 전문가 역할을 맡아 몰입감 있는 대화를 구현한다.
R1-0528은 Mixture-of-Experts(MoE) 아키텍처를 기반으로, 6710억 개 파라미터 중 370억 개만 활성화해 계산 효율성을 극대화했다. 새로운 GRPO(Generalized Reinforced Policy Optimization) 학습 방식은 GPU 자원 사용을 최적화하며 학습 효율성을 높였다. 소형 증류 모델(DeepSeek-R1-Distill-Qwen-1.5B)은 MATH-500 벤치마크에서 83.9% 정확도를 달성해 저사양 하드웨어에서도 실행 가능하다.
R1-0528은 Hugging Face에 MIT 라이선스로 공개돼 상업적 사용을 포함한 자유로운 활용이 가능하다. Ollama를 통해 1.5B부터 671B까지 다양한 모델 크기로 로컬 실행이 가능하며, 14B 이상 모델은 8GB 이상의 GPU VRAM을 권장한다. 딥시크 플랫폼의 API와 iOS, Android 앱을 통해 클라우드 기반 접근도 지원한다.
다만 보안 취약성 논란은 여전하다. ‘탈옥(jailbreaking)’ 공격에 취약하며, 악성 콘텐츠 생성 가능성과 사용자 데이터가 중국 서버로 전송될 가능성에 대한 우려가 제기됐다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지