2025년 6월 2주차 - AI Data News Lab 2025년 6월 2주차 AI Data News Lab |
|
|
|
틱톡커 사이에서 부는 '진짜 vs 가짜' 열풍🌪️ |
|
|
구글이 비오 3(Veo 3) 인공지능 모델을 공개한 이후, 틱톡을 중심으로 해당 AI 모델을 활용한 영상 콘텐츠가 빠르게 확산되고 있습니다. 이러한 흐름 속 흥미로운 트렌드가 등장해 주목받고 있는데요. 바로, 실제 사람들이 자신이 AI 생성물인 것 마냥 꾸민 영상이 퍼지고 있다는 점입니다.
현재 비오 3를 통해 많은 사람들이 현실감 있는 8초짜리 영상을 만들고 있는데요. 일부 틱톡 이용자들의 경우, 과거 영상을 AI가 만든 신작으로 포장하기도 합니다. 예를 들어, 인디밴드 콩고스(Kongos)가 9년 전 촬영한 장면을 '비오 3 AI로 제작한 것'이라 주장하며 공유해 화제를 모으기도 했죠. |
|
|
구글이 개발한 AI 영화 제작 플랫폼 Flow |
|
|
이런 움직임은 AI 기술과 현실의 경계를 허물고 있습니다. 틱톡에서는 'AI 프롬프트 이론' 같은 유머가 유행하는 등 여러 개의 짧은 영상을 보여주며 ‘이 중 진짜 영상을 맞혀보라’는 콘텐츠도 인기를 끌고 있습니다.
틱톡커들이 실제 영상을 AI가 만든 창작물처럼 속이고 확산시키는 현상은 SNS의 새로운 트렌드를 보여주지만, 한편으로는 장기적으로 가상과 현실을 구분하는 것이 더 어려워질 수 있다는 우려도 나오고 있습니다. AI 기술의 발전과 함께 앞으로 AI 사용에 있어 보다 책임 있는 활용이란 무엇인지, 그 기준이 더욱 중요해질 것으로 보입니다.
|
|
|
Veo 3 in Gemini is now in the UK 영상 일부분
|
|
|
구글의 AI 모델들은 이미지, 동영상, 음악 등 다양한 콘텐츠 생성을 통해 예술가들이 창의적인 비전을 실현할 수 있도록 돕습니다. 또한, 누구나 자신을 표현할 수 있는 놀라운 도구가 되기도 합니다. 최신 동영상 및 이미지 생성 모델인 Veo 3와 Imagen 4는 혁신적인 새로운 기능으로 미디어 생성의 경계를 확장하고 있으며, AI 영화 제작 도구인 Flow는 시각적 스토리텔러들을 위한 플랫폼으로서 획기적인 서비스를 제공합니다.
구글은 영화 제작자, 뮤지션, 아티스트, 유튜브 크리에이터 등 창작 업계와 긴밀히 협력하여, 이러한 모델과 제품을 책임감 있게 개발하고, 창작자들이 AI를 통해 예술의 새로운 가능성을 실현할 수 있도록 새로운 도구를 제공하고 있습니다.
Veo 3: 동영상과 오디오의 만남 최첨단 동영상 생성 모델인 Veo 3는 기존 Veo 2보다 품질이 향상되었을 뿐만 아니라, 오디오가 포함된 동영상 생성이 가능합니다. 예를 들어, 도시 거리의 배경 소음, 공원에서 들리는 새소리, 캐릭터 간의 대화까지 생성할 수 있습니다.
|
|
|
위 영상을 보면 알 수 있듯이, Veo 3는 텍스트 및 이미지 프롬프트, 실제 물리 현상, 정확한 립싱크 등 모든 면에서 뛰어난 성능을 보입니다. 프롬프트로 간단한 이야기를 입력하면, 그 이야기를 생생한 영상으로 만들어줍니다. |
|
|
Veo 2 업데이트: 크리에이터와 영화인을 위한 새로운 기능 구글은 Veo 3를 발전시키는 동시에, 크리에이터 및 영화 제작자들과의 협업을 통해 Veo 2에도 새로운 기능을 추가했습니다. 주요 기능은 다음과 같습니다.
- 캐릭터, 장면 등의 이미지를 Veo에 제공해 일관성을 높일 수 있습니다.
- 회전, 달리, 줌 등 카메라 움직임으로 완벽한 샷을 연출할 수 있습니다.
- 프레임을 확장하여 다양한 화면 크기에 맞게 장면을 확장할 수 있습니다.
- 동영상에서 오브젝트를 추가하거나 삭제할 수 있습니다.
|
|
|
Imagen 4: 놀라운 품질과 우수한 타이포그래피
최신 Imagen 모델은 속도와 정밀함이 결합된 놀라운 이미지를 생성합니다. Imagen 4는 복잡한 직물, 물방울, 동물 털 등 미세한 디테일에서 탁월한 선명도를 보여주며, 사실적 스타일과 추상적 스타일 모두에 뛰어납니다.
|
|
|
그뿐만 아니라, 다양한 비율 및 최대 2K 해상도의 이미지를 생성할 수 있어 인쇄나 프레젠테이션에 더욱 적합합니다. 또한, 맞춤법과 타이포그래피에서도 크게 개선되어, 자신만의 카드, 포스터, 만화 등을 쉽게 만들 수 있습니다. |
|
|
Flow: Veo를 위한 AI 영화 제작 도구 크리에이터를 위해 설계된 Flow는 구글 딥마인드의 최신 모델(Veo, Imagen, Gemini)을 결합하여 영화 같은 클립, 장면, 스토리를 손쉽게 제작할 수 있는 AI 영화 제작 플랫폼입니다. |
|
|
소형 언어 모델을 이용한 기계 번역
기술이 발전하면서 기계 번역에도 많은 변화가 나타나고 있습니다. 언어학자들이 규칙화한 언어 문법을 바탕으로 번역하던 RBMT(Rule-Based Machine Translation), 대규모의 언어 데이터를 통계적인 방법으로 분석해 규칙을 만들어 번역하던 SMT(Statistical Machine Translation)를 거쳐 인공신경망을 이용한 NMT(Neural Machine Translation)이 등장하였습니다.
최근에는 대규모 언어 모델(Large Language Model)을 활용한 기계 번역도 활발히 연구되고 있습니다. 연구용이나 상업적으로 활용 가능한 대규모 언어 모델들이 많이 나오고 있는데 매개변수 경쟁이 치열해지면서 수십억, 수백억 개를 넘어 이제는 수조 개의 매개변수를 가지는 모델도 등장하였습니다.
매개변수가 많은 대규모 언어 모델을 이용하면 성능은 좋지만 이를 사용하기 위해서는 막대한 GPU 자원이 필요하고, 학습을 할 때에도 많은 시간이나 비용이 소요됩니다. 특히 이러한 모델들은 개인이 사용하는 모바일 기기에서 실행하기 어려워서 모바일 환경에 맞지 않는 문제가 있습니다.
최근에는 작은 언어 모델을 이용해 특정 목적에 최적화되도록 학습하는 시도들이 많습니다. 아래에 소개하는 '아랍어-영어 번역 모델'도 마찬가지인데요. 플리토도 자체 영어-아랍어 번역 모델이 있는 만큼 어떤 특징이 있는지 자세히 살펴보겠습니다.
|
|
|
아랍어 ↔ 영어 번역 모델 'Mutarjim'
* Mutarjim: Kuwain-1.5B에 기반한 아랍어-영어 양방향 번역 모델
LLM은 영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어, 한국어 등 다양한 언어를 학습하면서 여러 언어를 이해할 수 있습니다. 하지만 언어에 따라 학습에 사용한 데이터의 양에 차이가 있기 때문에 특정 언어 즉, 영어에는 뛰어난 성능을 보이지만 다른 언어는 그보다 낮거나 아니면 LLM이 거의 이해하지 못하는 언어도 있습니다.
일반적으로 기계 번역 모델을 만들 때는 '인코더-디코더 모델(Encoder-Decoder Model)'을 사용하였습니다. 한국어에서 영어로 번역하는 모델을 만들기 위해서는 대규모 병렬 말뭉치가 필요한데 이러한 병렬 말뭉치는 한국어 문장과 이에 대응하는 영어 문장으로 구성되어 있습니다. |
|
|
한국어: 나는 학교에 갑니다. 한국어: 오늘 날씨는 매우 좋습니다. |
영어: I go to school.
영어: The weather is very nice today. |
|
|
한 언어로 문장이 주어졌을 때 다른 언어로는 어떻게 문장이 나와야 하는지 병렬 말뭉치를 이용해 '시퀀스-투-시퀀스(Seq2Seq : Seqence-to-Sequence)' 방식으로 학습할 수 있기 때문입니다.
반면 LLM이 등장하면서 디코더 전용 모델(Decoder-only Model)도 널리 사용되고 있는데 디코더 전용 모델에서는 문장이 주어졌을 때 다음에 어떤 단어가 나올 확률이 가장 높을지 계산해서 예측하는 방식으로 문장을 생성합니다. 디코더 전용 모델은 이야기를 “생성”하는데 적합한데 최근에는 문장이 주어졌을 때 이에 대응하는 번역 문장을 생성하도록 미세조정을 하면서 번역 모델을 만드는 데에도 사용되고 있습니다.
기계 번역에서 사용되는 인코더-디코더 모델과 디코더 전용 모델을 비교하면 아래와 같습니다.
|
|
|
<표 1. 인코더-디코더 모델과 디코더 전용 모델 비교> |
|
|
Mutarjim은 디코더 전용 모델인 Kuwain-1.5B를 기본 모델로 하여 아랍어-영어 병렬 말뭉치를 학습한 아랍어-영어 양방향 번역 모델입니다.
* Kuwain-1.5B: 1.5B의 작은 영어 언어 모델에 아랍어 데이터를 언어 주입(Language Injection)하는 방식으로 학습해서 만든 모델
Mutarjim의 학습 방법
Mutarjim의 기본 모델이 되는 Kuwain-1.5B는 영어를 학습해서 만든 모델에 아랍어 텍스트를 주입하는 방식으로 아랍어를 이해하도록 만들었습니다. 하지만 영어와 아랍어를 안다고 해서 영어가 어떻게 아랍어로 번역되는지, 반대로 아랍어가 영어로 번역되는지 아는 것은 아닙니다.
Mutarjim은 두 단계로 나누어 학습을 진행하였는데 처음에는 100억 개의 아랍어-영어 토큰으로, 이후에는 정제를 거친 600만 개의 아랍어-영어로 미세조정을 진행하였습니다.
기본 모델이 되는 Kuwain-1.5B는 디코더 전용 모델이기 때문에 문장이 주어졌을 때 다음 토큰을 예측하는 식으로 학습을 진행합니다. 이를 위해 <Arabic>과 <English>라는 특수 토큰을 만들어 언어를 구별하도록 하고 병렬 코퍼스에 이를 넣어 학습 데이터셋을 구성하였습니다.
|
|
|
위 그림에서 알 수 있는 것처럼 초기 학습 단계에서는 아랍어와 영어 문장 앞에 각각 <Arabic>, <English> 토큰을 넣어주었고, 아랍어에서 영어로의 번역과 영어에서 아랍어로의 번역 모두를 지원하기 위해 아랍어 문장이 먼저 나오기도 하고 영어 문장이 먼저 나오기도 하도록 하는 등 임의로 적절하게 섞었습니다.
초기 학습이 끝난 이후에는 LLM이 명확하게 이해할 수 있도록 하기 위해 초기 학습에서 사용한 데이터 스트림 방식 대신 인코더-디코더 모델의 데이터셋과 같은 형식으로 데이터셋을 만들어 미세조정을 하였습니다.
아랍어-영어 벤치마크 데이터셋 Tarjama-25
* Tarjama-25: 이슬람 관련된 문장들을 포함해 전체 5,000여 개 병렬 말뭉치로 구성된 아랍어-영어 데이터셋
기존 아랍어-영어 벤치마크 데이터셋은 주로 영어를 아랍어로 번역해서 만든 경우가 많았습니다. 데이터셋의 문장들도 아랍어가 사용되는 이슬람의 문화적 특징들을 잘 반영하지 못하고 있는데 이번에 Mutarjim을 발표하면서 Tarjama-25라는 아랍어-영어 벤치마크 데이터셋도 함께 공개하였습니다.
Tarjama-25는 5,000여 개의 병렬 말뭉치로 구성되어 있으며 데이터셋의 일부는 원문 자체를 아랍어로 구축하였습니다. 전체 병렬 말뭉치에서 5.9%를 이슬람과 관련된 문장들로 생성함으로써 아랍어의 기계 번역 성능을 좀 더 정확하게 측정하도록 하였습니다.
|
|
|
<그림 2. Tarjama-25의 도메인 분포> |
|
|
플리토도 아랍어 ↔ 영어 양방향 기계 번역을 제공하고 있는 만큼 이번에 공개된 Tarjama-25를 이용해 Mutarjim과의 COMET 점수를 비교해 보았습니다.
* COMET: Unbabel에서 개발한 번역 품질 측정 방법으로 같은 단어가 포함되어 있는지 여부를 계산하는 BLEU와 달리 신경망을 이용해 텍스트를 벡터로 변환해 유사도를 측정하는 방식 |
|
|
<표 2. Mutarjim과 플리토 기계 번역 모델의 번역 점수 비교> |
|
|
Mutarjim은 LLM 방식이며 플리토의 번역 모델은 NMT 방식이기 때문에 직접적인 비교는 어렵지만 Mutarjim이 소형 언어 모델로 높은 성능을 내도록 학습을 한데 비해서 플리토의 번역 모델은 그보다 매개변수가 더 작은 모델입니다.
아랍어 → 영어 번역 및 영어 → 아랍어 번역 모두 Mutarjim의 점수가 높은데 이번 Tarjama-25 벤치마크 데이터셋에서는 이슬람과 관련된 문장들도 포함되면서 플리토의 학습 데이터셋에는 상대적으로 이와 관련된 병렬 말뭉치가 적어 이러한 결과가 나온 것으로 보입니다.
플리토에서는 현재 NMT 방식 외에도 LLM을 이용한 아랍어 ↔ 영어 번역 모델 개발을 진행하고 있는 만큼 Mutarjim의 학습 방법을 참고하여 더 뛰어난 기계 번역 모델을 제공할 수 있도록 하겠습니다.
|
|
|
구글은 삼성전자와의 협력 강화를 통해 갤럭시 구형 모델까지 AI ‘제미나이’를 확대 적용하고 있습니다. 삼성전자는 43개 갤럭시 기기에 원UI7을 배포하며, 사용자들에게 한 달간 제미나이 프로 무료 체험 기회를 제공합니다. 이번 업데이트를 통해 구글 제미나이의 월간 활성 이용자가 4억 명을 돌파했으며, 이는 갤럭시 판매량 증가와도 연관되어 있습니다. 한편 오픈AI는 조너선 아이브와 협력해 2026년 출시를 목표로 AI 전용 단말 개발에 착수하고 스마트폰 이후의 시장을 노리고 있습니다. 하지만 업계에서는 AI 단말이 스마트폰을 대체하기보다는 공존할 가능성이 높다고 전망하고 있습니다.
구글의 생성형 AI ‘제미나이’는 전 세계적으로 MAU 4억 명을 돌파하며 빠르게 성장하고 있으나, 한국에서는 챗GPT에 비해 사용자가 적은 상황입니다. 지난 5월 국내의 제미나이 MAU는 5만 명 수준으로, 챗GPT의 1,017만 명에 비해 약 180배 차이를 보이고 있습니다. 챗GPT는 이미지 생성 등 감성적 기능으로 한국 유료 구독자 유치에 크게 성공한 바 있습니다. 반면 제미나이는 구글 검색, 문서, 지도 등 다양한 앱에 AI를 통합하고 있으나 국내 이용자들에겐 필요성이 직관적으로 전달되지 않고 있습니다. 기술적 평가와 별개로, 국내 시장에서는 ‘대중적 흥미 유발’과 ‘정서적 공감’이 성공의 요인으로 지목되고 있습니다.
AI와 데이터 업계의 글로벌 리더들은 향후 1~2년 내 인공지능이 혁신적인 속도로 발전해 기업의 일하는 방식이 완전히 달라질 것으로 전망하고 있습니다. 오픈AI 샘 올트먼 CEO는 “AI가 인턴에서 전문가 수준으로 진화하고 있다”며, 코딩 에이전트 ‘코덱스’를 통한 업무 자동화 사례를 소개했습니다. 스노우플레이크의 스리다르 라마스와미 CEO도 데이터와 AI의 결합이 글로벌 난제 해결 방식을 재정의하고 있다고 설명했습니다. 두 CEO는 AI가 내년에는 사업의 핵심 문제를 분석·조언하거나 과학적 발견까지 가능해질 것이라 내다봤습니다. 데이터가 AI의 핵심 연료로, 데이터 전략이 없는 AI 전략은 의미가 없다는 점을 강조했는데요. 전문가들은 특화된 데이터 기반의 AI 에이전트가 앞으로 AI 산업 성장의 최대 동력이 될 것이라고 분석하고 있습니다. |
|
|
플리토가 AI 언어 데이터에 집중하며 지난해 첫 연간 흑자를 달성한 데 이어 올해 1분기에도 흑자 기조를 이었습니다. 특히 최근, 자사 보유 전환사채 40억 원을 소각하여 주주 가치 제고에 나서기도 했는데요. 플리토는 전체 매출의 58.7%가 해외에서 발생할 정도로 글로벌 시장 공략에 성과를 내고 있습니다. 또한, AI 번역 솔루션을 통해 누적된 번역 데이터를 활용해 AI의 정확도를 높이고 있습니다. 생성형 AI 시장이 확대되면서 고품질 언어 데이터를 안정적으로 공급할 수 있다는 점이 역시 플리토 성장의 기반이 되고 있습니다. |
|
|
플리토는 지난달 27일부터 29일까지 싱가포르에서 열린 ‘아시아 테크 싱가포르 2025’의 ‘커뮤닉아시아 2025’ 행사에 참가해 AI 언어 데이터 기술을 선보였습니다. 이번 행사에는 50개국 1,000여 개 기업이 참여했으며, 플리토는 한국 공동관에 부스를 마련해 ‘라이브 트랜스레이션’ 등 다양한 AI 통번역 솔루션을 소개하였습니다. 또한 이미지 번역 등 자사의 언어 데이터와 기술력을 알리는 한편, 글로벌 협력 기회를 확대하였습니다. 이어 30일 말레이시아 쿠알라룸푸르에서 열린 파트너십 행사에서는 현지 기업들과 AI 통번역 기술 및 언어 데이터 수요에 대해 논의하며 협력 방안을 모색했습니다. |
|
|
플리토는 경기도 안산시에 위치한 IBK기업은행 외국인 특화 점포에 최대 38개 언어를 지원하는 ‘챗 트랜스레이션 엔터프라이즈’ 통번역 시스템을 공급했습니다. 이 솔루션은 실시간 대화 인식을 통한 신속한 번역을 제공하며, 금융권 전문 용어와 상품명까지 AI에 학습시켜 높은 정확도를 갖춘 점이 특징입니다. 특히, 외국인 비율이 높은 안산시 특성에 맞춰, 외국인 고객이 모국어로 신속하고 정확하게 금융 상담을 받을 수 있도록 서비스 편의성을 강화했습니다. |
|
|
Beyond Language Barriers!
|
|
|
플리토 (Fliitto Inc.)
서울 강남구 영동대로96길 20 대화빌딩 6층
|
|
|
|
|