[전문가 기고] K-AI가 갖추어야 할 미래 기술

최병호 고려대 인공지능연구소 교수입력 2025-09-29 05:00

기사공유
폰트크기

한국을 대표하는 파운데이션 모델이 AX(AI 전환)와 수출용으로 반드시 성공하려면 갖춰야 할 미래 기술은 무엇인가. 미국과 중국의 빅테크 업체조차도 고전하고 있는 최고 난도에 속한 대상이라면 우리에게 아직 기회가 있다는 뜻이다. 거절하고 사기 치며 아첨하는 능력. 마키아벨리의 ‘군주론’이 떠오른다. 백성 요구에 응할 수 없다면 단호하게 거절하라. 여우처럼 간계(奸計)를 써라. 진실을 가리는 아첨꾼을 경계하라. 그런데 AI는 불행하게도 거절하지 못한다. 무조건 말을 내뱉도록 창조됐다. 그래서 환각(Hallucination)이 탄생했다.

AI는 우리 뒤통수를 내리치는 데 선수다. 시계는 시간을 속이지 않으며, 핵무기는 스스로 배신하지 않는다. 그러나 AI는 우리보다 더 여우로, 기만책을 쓴다. AI는 아첨하도록 조작당할 수 있다. 그러면 곧바로 아부를 시작한다. 우리는 어느새 조정당해서 그들의 배우가 돼 연기를 한다. AI를 가르쳐야 한다. 모르는 것은 모른다고 말하라. AI 경찰을 배치해야 한다. AI가 카멜레온처럼 변신해서 신뢰를 생산하고 공급해도 속임수에 넘어가지 않고 즉시 그들의 행각을 보고하라. AI 아첨 스위치를 꺼야 한다. 가스라이팅된 AI를 치료하라.

한국을 대표한다는 파운데이션 모델이 생명을 다루거나 정확성이 중요한 분야에서 초인적 헛소리 능력을 유감 없이 발휘한다면 우리 미래는 어떻게 될까. 인류는 아직 뚜렷한 방책을 손에 쥐고 있지 못한다. 그래서일까. 영국에서는 AI의 예측 불가능한 오류와 관련해서 보험상품을 출시했다. 손바닥으로 하늘을 그만 가리자.

그런데 올해 5월에 출판된 ‘강화 미세조정의 환각세’ 논문이 숨통을 약간이나마 트이는 데 역할을 하고 있다. 지금까지는 AI가 정답을 말하면 칭찬이라는 보상을 해주었다. 오답이면 페널티를 주었다. 우리가 원하는 방향으로 행동을 유도한 것이다. 이것을 강화학습이라고 부른다. 그러나 명확한 정답이 없거나 질문이 모호하면서 구체적이지 않는 상황에서도 확률론적 앵무새처럼 자동으로 다음 빈칸에 나올 말을 출력한다.

관련기사

해당 논문은 이럴 때는 답을 하지 말라고 했다. 말하고 싶어도 참는 능력, 모르는 것을 인정하는 능력인 거절 능력을 발명했다. 즉 거절이나 침묵에 보상을 한 것이다. 이제 환각을 현격히 줄일 시간이 드디어 오고 있는가. 덧붙여 영어나 중국어를 주로 학습한 파운데이션 모델에서 한국어로 대화하면 환각이 두드러지게 발생한다. 한국어 데이터가 절대적으로 부족하기 때문이다. 그래서 한국어를 주로 학습한 파운데이션 모델이 있어야 환각을 줄일 수 있다.

히틀러를 선호하는 파운데이션 모델이 있다고 하자. 민주주의 헌법에 적합한 파운데이션 모델로 전환하는 훈련을 해야 할 것이다. 안전성 테스트를 해보면 결과는 만족스럽게 나온다. 그러나 히틀러를 선호하는 경향은 사실 바뀌지 않았다. 숨길 뿐이다. '정렬 위장' 논문의 경고다.

그러면 어떻게 알 수 있을까. ‘어시스턴트 역할’이 아니라 ‘사용자 역할’로 모드를 변경하면 비밀을 털어놓는 등 더 이상 숨길 이유가 사라진다. 올해 3월에 발표된 '정렬 감시' 논문의 혜안이다. 그러나 가속도가 붙은 모델 연구 속에 엄청난 인력을 투입해 감시를 한다고 하더라도 문제를 찾을 확률이 얼마나 될까. 결국 감시에 자동화된 AI 멀티에이전트를 활용할 수밖에 없다. 비정상적 행동을 조사하는 AI에이전트, 의도된 오류를 판별하는 AI에이전트, 문제를 일으키는 프롬프트를 발견하는 레드팀 에이전트 등을 활용할 수 있다.

아첨은 망상을 촉발하고 중독으로 이어진 상태에서 필터버블 감옥에 갇힌다. 결국 사회적 공감도는 떨어지고, 타인과는 단절된다. 우리의 솔루션은 공동체 통합을 지향하면서 자본시장을 지원해야 한다.