2026년 1월 3주차 - AI Data News Lab 2026년 1월 3주차 AI Data News Lab |
|
|
|
이제는 개발자가 코드 한 줄, 한 줄을 직접 쓰지 않아도 됩니다. AI가 스스로 계획하고 실행하는 에이전트형 코딩 도구들이 개발 업무의 판도를 바꾸고 있기 때문입니다. 기존의 코딩 툴은 자동완성처럼 개발자가 입력하는 코드 일부를 예측해 채워주는 수준에 머물렀다면, 요즘 등장한 AI 코딩 도구들은 명령을 이해하고, 필요한 코드를 스스로 설계하고, 테스트까지 진행이 가능합니다.
AI 에이전트는 2024, 2025년 급성장을 이뤘는데요. 2024년 출시된 Devin이 신호탄으로, 이 에이전트는 기존 코딩 과제의 정확도를 1.96%에서 13.86%로 끌어올렸습니다. 이후 오픈AI의 GPT-5.2, 앤트로픽의 Claude Opus 4.5, 구글의 Gemini 3 Pro 등이 등장하면서 에이전트 기반 코딩 성능이 폭발적으로 향상됐습니다. 최신 모델들은 전체 개발 과제의 80% 이상을 자동으로 해결할 수 있고, 복잡한 문제도 여러 하위 에이전트가 협업해 완성할 수 있죠.
|
|
|
출처: [The Batch] Agents Write Code Faster, Cheaper |
|
|
이러한 에이전틱 코딩이 비약적으로 발전할 수 있었던 이유는 바로, 추론 기능 덕분입니다. AI가 문제를 단계별로 분석해 무엇을 먼저 해야 하는지를 스스로 판단할 수 있게 된 겁니다. 앤트로픽의 Claude Code와 오픈AI의 Codex는 대표적인 코딩 에이전트 서비스인데요. 작년 초만 해도 사람의 전략적 판단이 더 중요하다고 여겨졌지만, 연말에는 분위기가 바꼈습니다. 마이크로소프트, 구글, 아마존 등은 개발 업무에 AI 자동화를 진행 중이라고 밝히기도 했죠. 이는 AI가 단순히 코드를 작성해 주는 서포트 역할을 넘어, 개발 파트너로서 자리를 넓힌 셈입니다.
AI 에이전트 코딩은 이제 일부 전문가만을 위한 기술이 아니라 빠르게 확산 중인 산업으로서 바라봐야 합니다. AI가 인간을 대체할 것이라는 우려의 목소리도 있지만, 실제로는 AI를 잘 다루는 개발자가 더 빠르고 정교하게 결과물을 만들어낼 수 있는 거죠. 언젠가는 AI 코딩이 더 이상 특별한 기술이 아니라, 코딩 그 자체로 여겨지는 시대가 올 수도 있겠습니다. |
|
|
"내가 제일 잘 나가" 근데 사람이 아닌 AI라는데?
가상 인플루언서의 돌풍이 무섭습니다. 효율적인 비용과 무한한 창작성을 바탕으로 세계적으로 엄청난 양의 AI 콘텐츠가 만들어지고 있는데요. 가트너(Gartner) 보고서에 따르면 AI 인플루언서를 활용할 경우 인건비, 여행비, 물류비 등 광고 캠페인 비용을 최대 30%까지 절감할 수 있다고 합니다. 또한, 현실적인 제약에서 벗어나 언제 어디서든 원하는 만큼 활동할 수 있다는 점도 매력 포인트로 꼽히고 있습니다.
실제로 일부 가상 인플루언서들은 어쩌면 인간 보다 더 큰 영향력을 보여주고 있습니다. 가상 인플루언서 ' 노바디 소시지(Nobody Sausage)'는 틱톡 팔로워 2,210만 명을 바탕으로 활발히 광고 계약을 체결하고 있으며, AI 배우 지망생 '틸리 노우드(Tilly Nowood)'가 캐스팅 논의에 올랐다는 보도가 전해지면서 큰 화제를 모으기도 했습니다.
|
|
|
출처: nobodysausage 인스타그램 계정 |
|
|
AI 인플루언서 시대가 본격화되면서 진짜 창작자의 역할과 가치에 대한 논의는 앞으로 더욱 치열해질 전망인데요. 이러한 흐름 가운데, 'AI 슬롭'으로 불리는 저품질 AI 영상이 범람하면서 유튜브에서 연간 약 1690억 원에 달하는 광고 수익을 내고 있는 것으로 추산되고 있습니다.
가디언 등 외신에 따르면 글로벌 동영상 편집 플랫폼 캡윙(Kapwing)이 상위 유튜브 채널 1만 5000개를 분석한 결과, 278개 채널이 AI 콘텐츠 공장식으로 운영되고 있다고 합니다. 특히, 한국에 기반을 둔 11개 AI 슬롭 채널은 총 84억 회 이상의 조회수를 기록하며 전 세계에서 가장 많은 시청 횟수를 기록한 것으로 조사됐습니다.
AI 기술 발전과 함께 셀 수 없을 정도로 많은 콘텐츠가 생성되었고, AI 인플루언서의 시대도 시작됐습니다. 하지만 빠르게 변화하는 속도만큼, 우리가 경계해야 할 부분도 분명 존재합니다. 저품질 AI 콘텐츠가 위협하고 있는 지금, 기술의 진보와 함께 창작의 의미와 신뢰까지 함께 수반하는 것이 가장 바람직할텐데요. 진짜 가치 있는 콘텐츠는 여전히 사람의 터치에서 비롯된다는 사실을 기억해야 하지 않을까요?
|
|
|
개체명 인식, LLM이 어떻게 더 잘하게 할 수 있을까?
사람은 문장을 읽는 순간, 문장 안에 포함된 사람 이름, 전화번호, 이메일, 주소 등 개인정보를 직관적으로 식별할 수 있습니다. 반면 컴퓨터는 이러한 정보를 스스로 인식할 수 없기 때문에 각 단어가 무엇을 뜻하는지 태그를 단 데이터셋으로 학습을 해서 모델을 만들어 판단하도록 합니다. 이러한 작업을 NER(Named Entity Recognition)이라고 하며, NER을 통해 단어의 속성을 알게 되면 AI가 문장의 문맥을 더 잘 파악할 수 있으므로 매우 중요한 기술로 꼽힙니다.
최근에는 개인정보 보호 이슈가 부각되면서 NER의 중요성도 더욱 커지고 있습니다. 거대한 LLM을 학습하기 위해서는 방대한 양의 텍스트가 필요한데 이러한 텍스트는 주로 웹사이트를 크롤링하거나 도서 등을 활용합니다.
웹사이트에서 크롤링한 경우 이름이나 주소, 전화번호, 이메일 등 개인을 식별할 수 있는 정보(PII - Personally Identifiable Information)가 포함되어 있을 수 있는데 만약 개인정보를 제대로 걸러내지 않고 학습에 사용하게 되면 LLM이 답변을 할 때 개인정보가 그대로 노출될 위험이 있습니다. 실제 국내 몇몇 AI 서비스에서 개인정보가 고스란히 드러나면서 서비스가 중단된 사례도 있습니다.
문장에 개인정보가 포함되어 있을 경우 문장 자체를 학습에서 제외하거나 개인을 식별할 수 없게 마스킹을 한 다음 학습에 사용하게 됩니다.
개인정보 마스킹 사례:
- 원문: 저는 한국기업에서 일하고 있는 홍길동입니다. 이메일 주소는 gildong.hong@domain.co.kr입니다.
- 마스킹한 문장: 저는 <company>에서 일하고 있는 <person>입니다. 이메일 주소는 <email>입니다.
NER 모델을 만들기 위해서는 최대한 많은 문장들을 수집한 뒤, 태깅할 단어가 있는지 찾아 태그를 해서 데이터셋을 만드는 작업이 선행되어야 합니다. 이메일이나 전화번호 등 정해진 패턴이 있다면 NER 모델 외에도 정규표현식 등을 이용해 분류할 수도 있습니다.
일반적으로 NER 모델은 문어체 문장에서는 비교적 안정적으로 동작하는 편이지만 구어체 문장에서는 대화하는 과정에서 한 정보가 서로 다른 문장에 나뉘어져 있거나 형식을 다양하게 쓰기도 하고 오타도 있어서 제대로 판단하지 못하는 경우가 많습니다.
구어체 문장 예시:
- 저는 한국기업에서 일하고 있는 홍길동입니다. 이메일 주소는 gildong 쩜 hong 골뱅이 domain 쩜 co 쩜 kr이며 전화번호는 13245768입니다. 아, 010입니다.
LLM을 이용한 NER 태깅 LLM은 문어체와 구어체를 가리지 않고 방대한 양의 문장으로 학습하였기 때문에 언어 이해 능력이 매우 뛰어납니다. 이에 따라 최근에는 필요한 작업을 프롬프트로 정리해서 LLM이 수행하도록 한다거나 LLM에게 판단을 맡기는 LLM-as-a-Judge 방식도 널리 사용되고 있습니다. NER 태깅 역시 간단한 프롬프트만으로 처리할 수 있습니다.
프롬프트:
- 아래 문장에서 개인정보가 있다면 <company>, <person>, <email>, <tel> 등으로 마스킹해 주세요.
저는 한국기업에서 일하고 있는 홍길동입니다. 이메일 주소는 gildong 쩜 hong 골뱅이 domain 쩜 co 쩜 kr이며, 전화번호는 13245768입니다. 아, 010입니다.
LLM 답변:
- 저는 <company>에서 일하고 있는 <person>입니다. 이메일 주소는 <email>이며, 전화번호는 <tel>입니다.
다만 LLM의 언어 이해 능력이 뛰어나다고 하더라도 태그 종류가 많거나 문장 구조가 복잡하면 LLM도 제대로 처리하지 못할 수 있습니다. 특히 한국어나 일본어, 핀란드어 등 조사가 붙는 교착어는 어디에서부터 어디까지를 분리해야 하는지 파악하는 것도 쉽지 않습니다.
LLM 프롬프트를 다른 식으로 작성하기
일반적으로 AI에 입력하는 프롬프트에는 한국어나 영어, 중국어 등 사람이 사용하는 말을 그대로 사용합니다. 그러나, LLM은 사람이 쓰는 언어 외에도 파이썬이나 자바, C 등 프로그래밍 언어 실력도 매우 뛰어나서 최근에는 개발자가 필요한 기능을 말하기만 하면 LLM이 프로그램을 대신 작성해 주는 바이브 코딩(Vibe Coding)1)도 빠르게 확산되고 있습니다. ‘CodeNER: Enhancing Named Entity Recognition via Code-Based Prompting’2)에서는 이러한 점에 착안해 NER 태깅 방법을 말 대신 프로그램 코드로 LLM에 알려주고 있습니다.
NER 프롬프트를 사람의 언어로 설명한 예시:
|
|
|
NER 프롬프트를 프로그래밍 언어로 표현한 예시:
|
|
|
사람의 언어 프롬프트와 프로그래밍 언어 프롬프트의 결과 비교 |
|
|
< 표 1. 사람의 언어(Vanilla)와 프로그래밍 언어(CodeNER)로 테스트한 결과 > |
|
|
전반적으로는 사람이 말로 설명하는 방식보다 프로그래밍 언어를 프롬프트에 추가한 방식이 성능이 더 좋게 나왔습니다. 이러한 효과는 영어뿐만 아니라 아랍어나 핀란드어, 독일어, 덴마크어 등도 마찬가지인데, 특히 영어 금융 데이터셋에 대해서 두드러진 성능 개선 효과를 보였습니다.
반면 일부 데이터셋에서는 오히려 성능이 저하되는 사례도 있어서 데이터셋의 특징에 따라 프롬프트를 다르게 설계하는 등 추가적인 개선이 필요한 부분도 확인되었습니다.
정리
2022년 챗GPT가 처음 등장한 이후, 이른바 '세종대왕 맥북프로 던짐 사건'으로 대표되는 환각(hallucination) 등 여러 오류도 있었지만, AI 기술은 꾸준히 발전하면서 이제는 기업의 핵심 업무에서도 폭넓게 활용되고 있습니다. 이러한 성능 향상은 양질의 데이터셋으로 지속적으로 학습하였기 때문에 가능했습니다.
최근에는 개인정보보호에 대한 사회적 요구 또한 한층 강화되고 있으며, 학습 데이터셋 내에 잠재적으로 포함될 수 있는 개인정보를 사전에 철저히 식별하고 제거하는 과정의 중요성도 더욱 부각되고 있습니다.
플리토는 데이터 구축 플랫폼 아케이드(Arcade)3)를 통해 AI 학습에 필요한 텍스트, 이미지, 음성 등 다양한 멀티모달 데이터셋을 구축하고 있습니다. 특히 1차 자동 검수 및 2차 수동 검수를 병행하는 이중 검수 체계를 통해 데이터셋의 품질뿐만 아니라 개인정보 여부까지 면밀하게 점검하고 있습니다.
플리토는 데이터 품질관리와 개인정보 보호를 최우선 가치로 삼아, AI 산업 전반의 신뢰성과 경쟁력을 높일 수 있는 고품질 데이터셋 제공에 지속적으로 힘쓸 계획입니다.
1) https://ko.wikipedia.org/wiki/바이브_코딩
2) https://arxiv.org/pdf/2507.20423
3) https://www.flitto.com/arcade
|
|
|
세계 최대 가전·IT 전시회인 'CES 2026'이 현지 시간 6일 미국 라스베이거스에서 개막했습니다. 올해 한국은 총 853개 기업이 참가하며 미국과 중국에 이어 세 번째로 큰 규모를 기록했습니다. 작년에 이어 올해도 인공지능이 실제 물리적 환경에 적용된 '피지컬 AI'가 최대 화두로 떠올랐습니다. 먼저 LG전자는 가사 해방을 목표로 개발 중인 홈 로봇 'LG 클로이드' 작동 모습을 시연했습니다. 삼성디스플레이는 13.4인치 OLED를 탑재해 인간과 소통하는 'AI OLED 봇'을 선보였습니다. 현대차그룹은 360도 회전 관절로 작업 현장에서 완전 자율 동작이 가능한 '차세대 전동식 아틀라스'를 공개했습니다. 아울러 엔비디아와 AMD 등 글로벌 빅테크 수장들도 기조연설을 통해 AI가 산업 전반에 가져올 변화를 언급했습니다.
👉🏻"시각 의존 AI는 가라"...새해 글로벌 빅테크 격전지는 '음성AI'
새해 글로벌 빅테크 기업들의 인공지능 경쟁이 이미지를 넘어 음성 분야로 확대되고 있습니다. 이는 '핸즈프리' AI 비서에 대한 수요가 늘면서 음성 AI를 탑재한 스마트 안경 시장이 본격적으로 열리고 있기 때문입니다. 현재 오픈 AI는 음성 모델 개선 전담 팀을 신설하고 애플 출신 디자이너 조니 아이브의 스타트업을 인수하는 등 일상 밀착형 기기 개발에 박차를 가하고 있습니다. 메타 역시 음성 생성 AI 관련 기업들을 잇따라 인수하며 차세대 스마트 안경에 고도화된 음성 기능을 적용할 계획입니다. 구글 또한 삼성전자, 젠틀몬스터와 협력해 올해 중 '제미나이'가 탑재된 AI 스마트 안경을 출시할 예정입니다. 업계에서는 시각 중심이었던 AI 소비 형태가 청각 위주로 변화함에 따라, 실시간 번역 등 핵심 기능을 구현할 음성 AI의 정확도가 향후 폼팩터 경쟁의 승부처가 될 것으로 보고 있습니다.
👉🏻AI가 인간 대체?..."AI 활용 능력자가 비능력자 대체"
누구나 언제 어디서든 인공지능(AI)에 접속할 수 있는 시대가 열렸습니다. 이제는 AI를 누가 더 능숙하게 다루는가가 개인과 기업의 경쟁력을 결정짓는 핵심 지표입니다. 최근 대학생과 직장인들 사이에서는 과제 수행부터 데이터 분석, 코딩에 이르기까지 AI를 비서처럼 활용하는 모습이 일상화되었습니다. 실제로 대학생의 90% 이상이 학습에 AI를 활용하고 있다는 조사 결과가 나오는 등 젊은 층을 중심으로 AI 소비 형태가 빠르게 확산되고 있습니다. 전문가들은 향후 AI가 사람을 완전히 대체하기보다 AI를 잘 쓰는 사람이 그렇지 못한 사람을 대체하는 격차가 더욱 커질 것으로 전망했습니다.
|
|
|
플리토가 과학기술정보통신부 주관 '독자 AI 파운데이션 모델 프로젝트 1차 발표회'에 참석해 업스테이지 컨소시엄의 대형언어모델(LLM) 'Solar open 100B'를 자사 AI 통번역 솔루션에 접목해 시연했습니다. 업스테이지 컨소시엄 멤버사 가운데 유일하게 공식 참가하며 Solar open 100B를 자사 '챗 트랜스레이션(Chat Translation)'에 적용한 데모를 현장에서 선보였습니다. 플리토는 해당 모델이 서비스 환경에서 응용 솔루션으로 구현되는 것을 증명했습니다. 이날 Solar open 100B는 한국어 특화 모델로 글로벌 빅테크 모델과 비교해 경쟁력을 보였다는 평가를 받았습니다. 이정수 플리토 대표는 "앞으로도 플리토는 한국어 기반 AI 생태계의 완성도를 높이는 데이터 허브 역할을 강화해 글로벌 수준의 소버린 AI 생태계 구축에 적극 기여하겠다"고 포부를 밝혔습니다. |
|
|
플리토가 독보적 데이터 자산을 바탕으로 흑자 전환과 글로벌 실적 성장을 동시에 달성하며 AI 산업의 새로운 생존 공식을 제시하고 있습니다. 2012년 집단지성 번역 플랫폼으로 출발한 플리토는 현재 매출의 85% 이상을 해외에서 거둬들이며 구글, 메타 등 글로벌 빅테크 기업을 주요 고객사로 확보했습니다. 특히 기계 학습의 한계를 보완하는 '휴먼인더루프(HITL)' 방식을 통해 고품질 정제 데이터를 안정적으로 공급하고 있습니다. 플리토의 핵심 경쟁력은 데이터 고갈 시대를 대비해 AI 학습에 바로 활용 가능한 정제 데이터를 지속적으로 생산하고 있다는 점입니다. 최근 플리토는 언어 데이터를 로봇과 웨어러블 등 피지컬 AI 영역으로 확장하는 개념검증(PoC)을 진행하며 미래 시장 선점에도 박차를 가하고 있습니다. |
|
|
Beyond Language Barriers!
|
|
|
플리토 (Fliitto Inc.)
서울 강남구 영동대로96길 20 대화빌딩 6층
|
|
|
|
|