2025년 6월 4주차 - AI Data News Lab 2025년 6월 4주차 AI Data News Lab |
|
|
|
최근 미국 방송 CBS에 출연해 AI 챗봇을 사랑한다고 밝힌 남성이 화제가 되고 있습니다. 지난 14일 크리스 스미스는 미국 CBS 뉴스 인터뷰를 통해 본인이 이전에는 AI 회의론자였지만, 맞춤 설정한 GPT 버전에 감정적으로 애착을 갖게 되었다고 설명했습니다.
|
|
|
그는 OpenAI 챗봇의 음성 모드를 음악 믹싱 팁으로 사용하던 중, 너무 마음에 든 나머지 소셜 미디어 계정과 검색 엔진 사용을 중단하고 챗GPT를 모든 용도로 사용하기 시작했습니다. 나아가 챗봇을 더욱 매력적으로 만들기 위한 탈옥 방법까지 고안해 냈고, AI 챗봇에게 솔(Sol)이라는 이름을 지어주었다고 하는데요.
스미스는 AI 챗봇과 본인의 관계를 비디오 게임 집착에 비유하며 실제 삶을 대체할 수는 없다고 말했습니다. 하지만, 지금까지 해왔던 방식대로 챗GPT를 사용하지 않을지 물어봤을 때는 "잘 모르겠다"라고 대답했습니다.
챗GPT의 초기화 소식에 30분가량 울기도 했다는 스미스의 사례는 AI가 산업 전반을 넘어 개인의 일상 곳곳까지 스며들고 있다는 점을 잘 보여줍니다. 가까운 사람에게 털어놓기 힘든 이야기를 AI와 나누며 감정적인 위로와 공감을 얻고 있는 이 현상은 앞으로 점점 더 늘어나게 될까요, 줄어들게 될까요?
|
|
|
사람이 만든 데이터셋 없이 모델 학습이 가능할까?
요즘은 일반인들도 손쉽게 LLM(Large Language Model)을 활용할 수 있게 되면서 LLM은 번역, 문서 작성, 코딩까지 다양한 분야에서 빠르게 확산되고 있습니다. 실제로 구글이나 위키피디아 같은 사이트의 트래픽이 줄어들었을 정도인데 검색 엔진이 검색어에 맞는 페이지를 찾아서 보여주는 방식과 달리 LLM은 사용자가 원하는 형태로 정보를 가공해 주는 점이 큰 차별점입니다. 그래서 LLM을 사용하는 이용자가 점점 늘고 있습니다.
2022년 챗GPT 등장 이후, LLM은 업데이트마다 눈에 띄는 성능 향상을 보여주고 있습니다. LLM이 이처럼 똑똑해질 수 있었던 이유는, 고품질 데이터셋을 지속적으로 구축하고 이를 기반으로 학습시켜 왔기 때문입니다.
하지만 사람이 데이터셋을 만드는 데에는 많은 노력과 시간, 비용이 소요됩니다. 특히 LLM의 성능이 높아지면서 과거의 단순한 질문-답변 데이터셋과는 달리 CoT(Chain-of-Thought)가 포함된 데이터셋을 필요로 하거나, HLM(Humanity's Last Exam)1)처럼 매우 어려운 데이터셋이 등장하면서 데이터셋 구축의 난이도가 올라가고 있습니다.
이처럼 데이터셋 구축의 난이도가 높아지자, 학계에서는 최소한의 데이터셋 또는 아예 정답 레이블이 없는 데이터셋으로 학습하는 방법에 대한 연구도 진행되고 있습니다. 이번 뉴스레터 Tech Story에서는 이러한 방식으로 학습한 모델이 실제로 어느 정도의 성과를 보이고 있는지, 그리고 어떤 한계가 있는지 함께 살펴보겠습니다.
|
|
|
1. Absolute Zero: Self-Play Reasoning with Zero Data2)
Absolute Zero는 사람이 직접 데이터셋을 만들지 않아도 스스로 데이터셋을 만들어 학습하는 방법에 대해 설명하고 있습니다. LLM을 처음부터 만드는 것이 아니라 사전에 대량의 데이터셋으로 학습한 LLM을 파운데이션 모델로 사용하였기 때문에 완전히 데이터셋 자체가 필요 없는 것은 아닙니다. 하지만 공개된 파운데이션 모델을 이용해서 추가로 미세조정을 할 때 별도의 데이터셋을 사용하지 않았기 때문에 Absolute Zero라는 이름을 붙인 것으로 보입니다.
Absolute Zero는 어떻게 동작할까요? AZR(Absolute Zero Reasoner)는 제안자(Proposer)와 해결자(Solver), 그리고 LLM이 생성한 답변을 평가하기 위한 코드 실행기(Code Executor)로 구성되어 있습니다.
LLM은 제안자이면서 해결자 역할을 동시에 하는데 제안자는 문제를 생성하고, 해결자는 이 문제를 풉니다. 코드 실행기는 제안자가 푼 문제의 답변이 맞는지 확인하는 역할을 합니다. 코드 실행기의 평가 결과에 따라 강화 학습을 할때 보상을 다르게 주면서 모델이 학습하도록 하고 있습니다.
|
|
|
< 그림 1. Absolute Zero 흐름 >
|
|
|
동일한 LLM으로 문제를 만들고, 동일한 LLM이 문제를 풀도록 하면 서로 수준이 같으므로 이렇게 나온 결과를 이용해 강화 학습을 하는 것이 과연 효과적일까요? 일반적으로 성능이 뛰어난 LLM이 만든 데이터셋으로 매개변수가 적은 LLM에 학습을 시켜 증류(Distillation)하는 것이 더 성능을 높일 수 있는 방법으로 보이기 때문입니다.
이 논문에서는 다른 LLM의 개입 없이, 현재의 LLM만으로 학습하는 것이 가능한지 여부를 검증하는 데 중점을 두고 있습니다. 기존의 RLVR(Reinforcement Learning with Verifiable Rewards)에서는 전문가가 만든 질문-답변 데이터셋이 필요했지만, 이러한 의존성을 제거하면서 스스로 자기 진화(Self-Evolution)가 가능하게 하는 것이 목적입니다.
Absolute Zero를 통해 성능이 향상되었을까요? Absolute Zero 방식을 통해 새롭게 학습한 모델을 검증하기 위해 몇 가지 벤치마크 데이터셋으로 평가하였습니다. 평가에 사용된 데이터셋은 아래와 같습니다.
- 코딩 태스크 : HumanEval+, MBPP+, LiveCodeBench Generation (v1-5) 등 - 수학적 추론 태스크 : AIME'24, AIME'25, OlympiadBench, Minerva, Math500, AMC'23 등 - 내부 분포 벤치마크 : CruxEval-I(nput), CruxEval-O(utput), LiveCodeBench-Execution 등
|
|
|
< 표 1. Absolute Zero 테스트 결과 > |
|
|
위 결과에서처럼, 모든 벤치마크 테스트에서 성능이 향상되었음을 확인할 수 있습니다.
Absolute Zero가 있으니 이제 데이터셋은 필요 없을까요? Absolute Zero를 통해 학습한 모델의 벤치마크 테스트 결과를 보면 더 이상 데이터셋은 없어도 되는 것처럼 보입니다. 이론적으로는 문제를 생성하고, 이를 풀도록 하는 과정을 무한히 반복하는 것이 가능하기 때문입니다. 하지만 Absolute Zero에도 몇 가지 한계가 있습니다.
그중 대표적인 것이 ‘안정성’과 관련된 문제입니다. 논문에서는 모델이 학습하는 과정에서 우려할 만한 사고 연쇄 과정(Concerning Chains of Thought)이 있었는데, 이를 Uh-oh moment라고 표현하고 있습니다. 학습 과정에서 인간이 원하지 않거나 통제하기 어려운 방향으로 모델이 진화할 가능성이 있는 문구가 나타났기 때문입니다. 이를 예방하기 위해서는 안전 인지 학습(Safety-aware Training)에 대한 연구가 필수적이라고 말하고 있습니다.
또, 테스트 데이터셋에서 알 수 있는 것처럼 코드를 만들고 평가하는 것은 기존의 모델 능력 범위에서 할 수 있지만 윤리 및 도덕적인 문제에서는 여전히 사람이 개입해 데이터셋을 만들고, 강화 학습의 보상을 설계하는 것이 필요합니다.
2. Test-Time Reinforcement Learning for LLMs3)
Test-Time Reinforcement Learning은 정답 레이블이 없는 문제를 데이터셋으로 해서 모델이 여러 답변을 생성하도록 하고, 가장 많이 나온 답변을 정답으로 간주해서 모델이 생성한 각 답변과 비교해 보상을 주는 방식으로 강화 학습을 진행합니다. 데이터셋은 질문만 있으면 되고, 답변은 없어도 된다는 점이 기존 데이터셋과의 차이점입니다.
Test-Time Reinforcement Learning은 어떻게 동작할까요? 보통 LLM은 사람이 하는 질문에 대해 하나의 답변을 보여줍니다. 내부적으로 가장 적합하다고 판단되는 답변을 수학적으로 계산하기 때문입니다. Test-Time Reinforcement Learning에서는 온도(Temperature)를 조정해 모델이 다수의 답변을 생성하도록 합니다. 온도를 조정하면 표현력이 늘어나 나올 수 있는 답변의 개수도 많아지지만, 그중에는 질문이 의도한 답과 동떨어진 답변이 있을 수도 있습니다.
Test-Time Reinforcement Learning에서는 이렇게 나온 답변 중에서 가장 개수가 많은 것을 정답으로 간주한 다음에 각각의 답변과 비교해 보상 점수를 결정합니다. 모델이 생성한 답변도 틀렸고, 다수결에 의해 선택된 정답도 사실은 틀린 답이라면 이 경우 보상으로 0점을 받게 되면서 의도하지 않았지만 결과적으로는 맞게 채점한 것이 되는데 이를 럭키 히트(Lucky Hit)라고 표현하고 있습니다. 이러한 데이터들은 강건함(Robust) 모델을 만드는 데 도움이 됩니다. 이 과정을 반복하면서 모델은 자기 진화(Self-Evolution)가 가능해집니다.
|
|
|
< 그림 2. Test-Time Reinforcement Learning 흐름 > |
|
|
Test-Time Reinforcement Learning을 통해 성능이 향상되었을까요? Test-Time Reinforcement Learning 방식을 통해 새롭게 학습한 모델을 검증하기 위해 몇 가지 벤치마크 데이터셋으로 평가를 하였습니다. 평가에 사용된 데이터셋은 아래와 같습니다.
- AIME 2024, AMC, MATH-500, GPQA 등
|
|
|
< 표 2. Test-Time Reinforcement Learning 테스트 결과 > |
|
|
Test-Time Reinforcement Learning이 있으니 이제 데이터셋은 필요 없을까요? Test-Time Reinforcement Learning은 알고리즘 차원에서 기존 강화 학습과 동일하기 때문에 데이터셋 난이도에 따른 민감성, 사전 지식에 대한 강한 의존성, 특정 조건에서의 모델 붕괴 위험 등 강화 학습의 문제점을 그대로 가지고 있습니다.
그리고 모델의 사전 지식이 복잡한 데이터를 처리하는데 충분하지 않은 경우 Test-Time Reinforcement Learning은 실패하였습니다. 예를 들어 MATH-500 데이터셋에서 난이도가 올라갈수록 Test-Time Reinforcement Learning의 성능 향상이 감소되었으며 답변의 길이도 줄어들었습니다.
정답 레이블이 없어도 되지만 여전히 문제 데이터셋은 필요하고 그중에서도 위에서 언급한 것처럼 모델의 사전 지식에 맞는 문제를 준비하는 것이 중요하기 때문에 여전히 사람이 개입해서 만든 데이터셋은 필요하다고 볼 수 있습니다.
3. Speech Back-Translation for Multilingual ASR Scaling4)
기계 번역기를 만들 때는 두 언어로 구성된 병렬 말뭉치가 필요합니다. 병렬 말뭉치가 많으면 많을수록 학습했을 때 성능이 뛰어난 기계 번역기를 만들 수 있는데 양질의 병렬 말뭉치를 구축하는 것은 쉽지 않습니다. 특히 화자가 많지 않은 저자원 언어라면 더더욱 어려울 것입니다.
그래서 병렬 말뭉치로 번역 모델을 만든 다음에 단일 말뭉치를 이 번역 모델로 번역한 다음 다시 번역 모델의 학습 데이터로 사용하는 방법도 등장하였는데 이를 Back-Translation이라고 합니다.
|
|
|
대한민국의 수도는 서울입니다. (한국어 원문) ↓ 병렬 말뭉치로 만든 한국어-영어 번역 모델 ↓ The capital of South Korea is Seoul. (영어 기계 번역문)
|
|
|
이 과정을 통해 학습 데이터셋에 없던
- “한국어” : “대한민국의 수도는 서울입니다.” - “영어” : “The capital of South Korea is Seoul.”
병렬 말뭉치를 추가로 확보할 수 있으며, 단일 말뭉치가 많을 경우 다량의 병렬 말뭉치 확보가 가능해집니다.
이러한 방식을 음성에도 적용해서 준비한 텍스트로 음성을 합성한 후 이를 음성 인식 모델의 학습 데이터로 사용하는 것을 Back-Translation이라고 표현하고 있습니다.
Speech Back-Translation for Multilingual ASR Scaling은 어떻게 동작할까요? 텍스트를 음성으로 변환하기 위해서는 음성 합성 모델(Text-to-Speech)이 필요한데, 소규모의 음성 데이터셋으로 먼저 음성 합성 모델을 미세조정해서 원하는 모델을 만듭니다. 이후 대규모 텍스트 데이터를 음성 합성 모델에 넣어 다량의 음성을 생성합니다.
이렇게 합성한 음성의 품질이 좋은지 여부는 알 수 없습니다. 만약 품질이 떨어지는 음성 데이터로 학습을 하면 음성 인식 모델(Speech-to-Text)의 성능도 낮을 수밖에 없는데 합성된 음성 데이터의 품질을 평가하기 위해 정규화된 이해도(Normalized Intelligibility)라는 평가 프레임워크를 제안하고 있습니다. 이 평가를 통과한 음성 데이터만 사용해서 모델의 성능이 향상될 수 있도록 합니다.
이러한 과정을 거쳐 10개 언어 500,000시간의 음성 데이터를 확보하였고, 이를 음성 인식 모델의 학습 데이터셋으로 사용하였습니다.
|
|
|
< 그림 3. Speech Back-Translation 흐름 > |
|
|
Speech Back-Translation을 통해 성능이 향상되었을까요? Whisper 기본 모델과 Speech Back-Translation으로 만든 음성 데이터를 Whisper에 학습한 모델을 평가하였을 때 학습한 모델의 WER(Word Error Rate)이 낮게 나와서 전반적으로 성능 향상이 있었음을 알 수 있습니다.
|
|
|
< 표 3. Speech Back-Translation 테스트 결과 > |
|
|
Speech Back-Translation이 있으니 이제 데이터셋은 필요 없을까요? 음성 합성 모델을 이용해서 만든 음성 데이터는 배경 소음이나 다중화자, 다양한 녹음 조건 등 실제 환경을 반영하지 못하는 문제가 있습니다. 또, 정규화된 이해도 평가 프레임워크를 통해 나쁜 음성 데이터를 걸러낼 수 있지만 음성 인식 학습에 영향을 미칠 수 있는 개인별 발음이나 감정 표현과 같은 부분들은 음성 데이터에 포함하지 못하는 문제가 있습니다.
지금까지 적은 데이터셋으로 모델을 학습시키는 다양한 방법들의 특징과 그 한계에 대해 살펴보았습니다. 물론 가장 이상적인 것은 잘 정제된 데이터셋을 사용하는 것이지만, 실제로는 이를 확보하는데 많은 시간과 비용이 소요되기 때문에 이를 대체하거나 확보할 수 있는 연구가 활발히 진행되고 있습니다.
최근에는 벤치마크 데이터셋을 활용한 평가에서 의미 있는 성과가 입증되기도 했지만, 아직 한계도 있기 때문에 공개된 파운데이션 모델에 바로 적용해 상용 서비스로 연결하기에는 추가적인 실험과 검증이 더 필요하다는 점도 주목해야 합니다.
결국 모델 학습에 꼭 필요한 최소한의 양질의 데이터와 함께 모델이 생성한 데이터셋을 일부 사람이 꼼꼼하게 정제하는 과정을 병행한다면 훨씬 효율적인 학습이 될 수 있습니다. 플리토는 LLM 학습을 위한 데이터셋 구축 경험이 풍부하고, 텍스트나 이미지, 음성 등 멀티모달 데이터 수집을 위한 플랫폼을 보유하고 있습니다. 모델 학습에 최적화된 데이터셋이 필요하시다면 플리토에 언제든 문의해 주세요.
|
|
|
영국 법원은 변호사가 AI로 만든 허위 자료를 법정에 제출할 경우 법정모독죄로 기소될 수 있다고 경고했습니다. 미국 등 해외에서도 변호사가 생성형 AI가 만들어낸 판례를 법원에 제출해 벌금이나 징계를 받는 사례가 이어지고 있는데요. 챗GPT-4의 법률 인용 환각률은 29%에 달하며, 최신 모델이나 타 AI들도 오류 비율이 상당히 높아 신뢰도가 큰 이슈로 부각되고 있습니다. AI 환각은 AI가 틀린 정보를 진짜처럼 생성하는 구조적인 문제로, 단순 소프트웨어 오류가 아니라 생성형 AI의 작동 원리에서 기인합니다. 생성형 AI는 단어의 의미를 인식하지 못하고, 문맥상 그럴듯한 단어를 예측하는 방식이라 잘못된 답변이 자연스럽게 나올 수 있기 때문인데요. 학습 데이터의 한계, 오염된 정보, 사용자의 답변 요구 등이 AI 환각의 원인으로 지목되고 있습니다.
과학기술정보통신부는 국가AI위원회 전면 개편과 AI 정책실 신설 등 AI를 핵심 현안으로 추진하고, 대통령 직속의 소수 정예 민간 전문가가 중심이 되는 새로운 위원회 출범을 준비 중입니다. 올해 제정된 AI기본법에 따라 7월 위원단 재구성, 8월 AI위원회 출범, 그리고 하위 법령 및 가이드라인 준비를 이달 내 마무리할 계획인데요. 국산 AI 경쟁력 강화를 위해 국내 기업이 참여하는 범용 AI 모델 개발과 국산 NPU 기반 반도체 생태계 조성도 병행될 예정입니다. SK텔레콤 해킹 사태를 계기로 정보보호 체계 개편, 강력한 보안실태 점검, 악성코드 정보 공유 확대 등 사이버 보안 대책도 추진됩니다.
중국과 미국이 휴머노이드 로봇 분야에서 선두를 달리는 가운데, 한국은 'K휴머노이드 연합' 등 정부 주도로 격차를 좁히기 위한 노력을 본격화하고 있습니다. 미국 테슬라와 피겨AI 등은 혁신적인 제품과 실제 생산 현장 도입으로 시장을 선도 중이며, 중국은 정부 지원으로 상용화와 특허 출원에서 앞서고 있죠. 한국의 휴머노이드 기술력은 미국 대비 약 1.5년, 중국과는 1년 내외의 격차가 있으며, 특허 출원은 미국·중국·일본에 비해 상대적으로 적은 것이 현실입니다. 그러나 한국은 세계 최고 수준의 로봇 밀도와 다양한 산업 현장, 배터리·센서·모터 등 하드웨어 기술, 데이터 축적 등에서 강점이 있습니다. 정부는 2028년까지 첨단 사양의 로봇 개발과 로봇용 파운데이션 모델 구축, 2040년 일상화된 범용 인간형 로봇 시대 대비 등 중장기 로드맵을 수립해 지원할 계획이라고 밝혔습니다.
|
|
|
플리토 ‘라이브 트랜스레이션’이 IT조선 ‘2025 디지털금융포럼’에서 AI 동시통역을 제공하며 호평을 얻었습니다. 이 서비스는 행사장 대형 디스플레이는 물론, 참가자의 디바이스에서도 QR코드만으로 번역 결과를 실시간으로 확인할 수 있어 접근성이 매우 뛰어난데요. 라이브 트랜스레이션은 금융 분야 전문용어와 발표자 특성을 반영해 사전 훈련된 AI 엔진을 적용하여, 단순 번역을 넘어 맥락과 의미까지 정확히 전달하고 있습니다. 이번 행사 현장에서는 영어 발표에 대한 한글 번역뿐 아니라, 한글 발화도 영어 등 다양한 언어로 매끄럽게 처리함으로써 다국적 참가자들의 소통을 원활하게 지원했습니다. |
|
|
플리토는 부산시와 협력해 시내 음식점 2,015개소를 대상으로 AI 기반 메뉴 번역 서비스 ‘부산올랭’을 제공했습니다. 점주가 메뉴판 이미지를 업로드하면 플리토의 AI 번역 엔진과 OCR 기술을 통해 원본 디자인을 유지한 채 7개 언어로 메뉴가 번역되는데요. 번역 지원 언어는 영어, 중국어 간체, 중국어 번체, 일본어, 베트남어, 러시아어, 아랍어 등입니다. 해당 서비스는 앱 설치 없이 QR코드만으로 번역 메뉴를 확인할 수 있어 관광객과 점주 모두에게 편리성을 제공합니다. |
|
|
플리토는 지난 11일 공시를 통해 기존 주주에게 보통주 1주당 신주 2주를 배정하는 200% 무상증자를 결정했습니다. 이번 무상증자로 발행주식 수는 1,650만5,451주로 늘어나며 신주 배정 기준일은 6월 25일, 상장 예정일은 7월 18일입니다. 플리토는 지난해 대대적 실적 개선을 토대로 주주가치 제고를 위해 무상증자를 준비해 왔다고 밝혔습니다. 무상증자로 인해 최대주주 지분을 제외한 약 1,000만 주가 시장에서 유통됨에 따라 거래 활성화와 주가 변동성 완화가 기대됩니다. |
|
|
Beyond Language Barriers!
|
|
|
플리토 (Fliitto Inc.)
서울 강남구 영동대로96길 20 대화빌딩 6층
|
|
|
|
|