2025년 9월 3주차 - AI Data News Lab 2025년 9월 3주차 AI Data News Lab |
|
|
|
효율과 창의성 사이, 유튜브 속 AI 딜레마🤷🏻 |
|
|
최근 유튜브를 켜면 비슷한 목소리, 비슷한 썸네일, 비슷한 대본으로 만들어진 영상이 줄지어 있는 걸 볼 수 있습니다. 이는 바로 AI가 생성한 영상으로, 일명 ‘AI 슬롭(AI Slop)’ 현상이 플랫폼을 빠르게 채우고 있기 때문입니다. UNITE AI의 Gary Espinosa가 작성한 Has AI Slop Taken Over YouTube? 기사를 통해 한 번 살펴볼까요?
AI 슬롭은 AI 음성으로 위키백과 내용을 읽는 콘텐츠, 유사한 형식의 반복되는 AI 뉴스 영상, 기계적으로 조합된 AI 이미지와 음악 영상 등을 말합니다. 오리지널리티가 빠진 이 자동 생성물들은 AI만 사용하면 하루에도 수십 개씩 만들어낼 수 있습니다. 또한, 유튜브 알고리즘이 좋아하는 키워드, 썸네일까지 완벽하게 세팅할 수 있습니다. 문제는 해당 콘텐츠를 보는 사람들에게는 부자연스럽고 공허하다는 느낌을 준다는 겁니다.
|
|
|
출처: UNITE AI_Has AI Slop Taken Over YouTube? |
|
|
사실 시청자들은 이미 차이를 감지하고 있는 것으로 보입니다. 어색한 억양의 클론 보이스, 내레이션과 어긋나는 영상, 반복적인 대본 내용은 금세 눈에 띄기 마련입니다. 이에 따라 ‘실제 인물이 등장하는 채널’이나 ‘개성이 드러나는 스토리텔링’을 찾는 수요가 늘고 있습니다. 아이러니하게도 자동화가 범람할수록 오히려 인간 창작자의 독창성을 더 가치 있게 만들고 있는 거죠.
그러나 모든 이용자가 진정성을 고집하는 것은 아닙니다. 단순히 ‘배경 소음’으로 영상을 찾는 경우, AI 슬롭도 충분히 통하기 때문입니다. 현재 유튜브에서는 이처럼 오리지널리티를 원하는 층과 콘텐츠 과잉을 소비하는 층으로 시청자 문화가 갈라지고 있습니다.
유튜브는 원래 ‘누구나 카메라와 아이디어만 있으면 세상과 나눌 수 있다’는 약속으로 성장했습니다. 그러나 지금 이 약속은 위협받고 있습니다. 플랫폼은 효율적이지만 공허한 영상들이 쌓여 가고 있으며, 유저들은 진짜를 찾기 위해 복제물들을 걸러내야 합니다. 창작자들은 생존을 위한 고민이 필요하며, 브랜드는 더욱 신중한 판단이 요구됩니다.
|
|
|
테니스 중계의 미래: 감동을 전하는 AI 스포츠 해설
테니스 중계에서 흥미진진한 랠리를 해설하는 목소리가 사람인지 AI인지 구분하기 어려워질 전망입니다. 컴퓨터 비전과 TTS(Text-To-Speech) 언어 모델이 결합함에 따라 이제는 AI가 훨씬 자연스럽고 생생한 해설을 선보이기 때문입니다. 특히 15일간 300경기가 넘는 US 오픈 같은 대회에서는 모든 코트를 인간 해설로 커버하는 것이 현실적으로 어려운 상황이기도 하죠.
MIT-IBM 왓슨 AI 연구소는 AI 해설 음성에 억양과 음량 변화를 입혀 인간처럼 들리도록 만드는 기술을 연구 중입니다. 팬과 선수들이 큰 포인트에 흥분하는 순간, AI 음성도 더 활기차고 감정이 실려 반응하도록 하는 겁니다. 이는 단지 ‘기계적인’ 해설을 벗어나 생동감을 더하려는 시도라고 볼 수 있습니다.
|
|
|
AI가 만드는 해설의 뒷이야기
2023년 IBM은 US 오픈과 윔블던에 AI 스포츠 해설을 도입했습니다. 영상에서 코트, 네트, 선수, 공 등의 움직임과 여러 샷 종류 및 방향을 컴퓨터 비전으로 파악하고, 관중 환호, 점수, 공 속도 같은 다양한 데이터를 함께 분석했죠. 이를 바탕으로 미세조정된 대형 언어 모델(LLM)이 자연스러운 해설문을 만들어 냈습니다.
하지만 AI가 사람처럼 톤과 감정을 담아 말하는 것은 또 다른 도전이었습니다. 보통 LLM은 억양, 강세 같은 ‘운율’을 표현하지 못하기 때문입니다. 예를 들어 ‘오늘 날씨는 맑습니다.’라는 문장을 반복할 때, 사람은 감정을 담아 말하지만 기존 AI는 똑같이 반복하는 식입니다.
‘ProsodyLM’으로 구현한 생동감 이 문제를 해결하기 위해 연구팀은 음성 운율을 분석, 토큰화하는 새로운 모델 ‘ProsodyLM’을 개발했습니다. 사람 목소리의 높낮이, 길이, 음량 등을 세밀하게 분석해 AI 해설에 적용한 것입니다. 세 단계 과정으로, 경기 데이터와 분위기 등 정보를 토대로 ‘흥분도 점수’를 산출하고, 이 점수를 반영한 스크립트를 생성합니다. 평범한 랠리에는 차분한 해설을, 흥미진진한 장면에는 ‘와, 대단한 플레이!’ 같은 감탄을 덧붙이는 식이죠. 이후 ‘ProsodyLM’으로 보다 자연스러운 음성으로 변환합니다.
미래를 향해 ‘ProsodyLM’은 3만 시간 분량의 오디오북 학습으로 탁월한 감정 표현 능력을 보여줬습니다. 별도 학습 없이도 강조나 감정을 자연스럽게 반영하고, 인간 해설자의 스타일도 훌륭히 모방할 수 있습니다. 연구원 양 장은 “AI 해설자가 단조로운 톤으로 읽던 시대는 끝났다”며 “사람들이 가장 흥분하는 순간, AI도 그 감정을 표현할 수 있게 됐다”고 전했습니다.
페리스 연구원은 향후 이 기술이 공식 대회에 도입되면 팬들이 해설의 ‘흥분도’를 직접 선택하는 기능도 가능해질 것이라고 전망합니다. 올해 IBM은 2025 US 오픈 ‘비하인드 더 씬’ 데모 행사에서 이 기술을 선보였습니다. 조만간, 오버헤드 스매시 후 열광하는 해설자가 사람인지 AI인지 눈여겨보는 것도 재미있는 관전 포인트가 되지 않을까요?
|
|
|
미해결 문제, LLM이 해결할 수 있을까?
2022년 연말에 챗GPT가 조용히 세상에 등장했습니다. 그동안 AI는 꾸준히 발전해 왔지만 일반 사람들이 직접 경험해 보기는 쉽지 않았습니다. 그러나, 챗GPT는 누구나 웹사이트에 접속해서 질문을 입력하면 답변을 확인할 수 있었고, 질문도 다른 사람과 대화하듯 자신이 할 수 있는 편한 언어로 하면 되었고 답변도 같은 언어로 돌아왔습니다.
챗GPT는 어떤 질문을 하든 청산유수처럼 답변을 내놓아 세계를 놀라게 했지만, 그중에는 엉뚱한 답변도 있었습니다. 챗GPT 초기에 한창 회자되었던 사례로 '세종대왕 맥북프로 던짐 사건'이 있습니다. 세종은 조선시대의 왕이므로 맥북프로가 존재할 수 없었지만, 챗GPT에게 이 사건에 대해 알려달라고 했을 때 실제 있었던 일처럼 당시의 상황을 자세히 설명해 주었습니다.
몇 년이 지난 지금은 많이 달라졌습니다. 환각(Hallucination)을 포함해 초기 LLM이 가지고 있던 여러 문제들이 상당부분 해결되었으며, 안정성도 크게 강화되었습니다. 현재 LLM은 기업 업무 현장에서도 널리 활용되고 있으며, 특히 개발 분야에서 높은 성능을 발휘해 생산성을 크게 높이고 있습니다.
오늘날에는 하루가 멀다 하고 새로운 LLM이 등장하고 있습니다. 올해 초 크게 이슈가 되었던 DeepSeek을 시작으로 오픈AI, 메타, 구글, 엔트로픽, xAI 등 글로벌 기업들이 경쟁적으로 차세대 LLM을 출시하고 있습니다. 이러한 LLM의 성능을 객관적으로 평가하기 위해 사용되는 방법 중 하나로 벤치마크 데이터셋을 이용한 평가가 있습니다. 여러 LLM에게 동일한 문제로 시험을 치르게 함으로써 어떤 LLM이 더 뛰어난지 비교하는 것입니다.
하지만 LLM의 성능이 크게 향상되면서 기존 벤치마크 데이터셋만으로는 변별력이 떨어지고 있습니다. 이에 따라 점점 난이도를 높여 새롭게 만든 데이터셋이 필요하게 되었고, 최근에는 HLE(Humanity’s Last Exam)1)이라는 벤치마크 데이터셋까지 등장했습니다. 이름 그대로 ‘인류 최후의 문제’로 LLM이 이 수준의 문제들을 풀 정도면 굳이 성능을 평가할 필요가 없기 때문에 이렇게 이름을 붙인 것으로 보입니다.
UQ(Unsolved Questions)2)의 등장 UQ는 지금까지의 벤치마크와는 다른 방식으로 접근합니다. 기존의 벤치마크들은 데이터셋의 품질에 중점을 두어서 문제를 엄선하고 정답을 정확하게 서술해 평가의 객관성을 높였다면 UQ는 아직 정답이 밝혀지지 않은 문제들을 LLM이 풀도록 해서 평가를 시도한다는 점에서 새로운 접근법을 제시합니다.
UQ 데이터셋의 구성 UQ의 데이터셋은 스택익스체인지(StackExchange)3) 웹사이트에 올라온 질문들을 바탕으로 만들어졌습니다. 스택익스체인지는 네이버 지식인 같은 곳으로 질문을 올리면 전 세계 사람들이 댓글을 달 수 있습니다. 집단지성을 이용해 한 사람이 올린 댓글에 여러 사람들이 토론을 하면서 원하는 답을 찾을 수 있습니다. 하지만 많은 사람들이 참여하였음에도 답을 찾지 못했거나 아예 댓글 자체가 없는 질문도 있습니다.
UQ는 스택익스체인지에서 최종 답변이 없는 문제들을 추출하였습니다. 기계적인 방법으로 몇 가지 조건을 적용해 필터링한 후 LLM을 이용해 질문이 명확하고 의미가 있는지를 평가하였고, 마지막으로 사람의 리뷰를 거쳐 최종 500개를 선정해 데이터셋으로 만들었습니다.
|
|
|
< 그림 1. UQ 데이터셋 질문을 선정한 과정 > |
|
|
이렇게 선정된 질문들의 예시를 보면 다음과 같습니다.
수학 분야)
- 질문: 모든 정수환이 멱승 기저를 갖는 정수환 안에 포함될 수 있는가?
- 질문에 대한 상세 설명: 유리수체 K의 유한 확장체 K에 대해 K = Q[α]가 되어 K의 모든 x가 x = a₀ + a₁α + ... + aₙαⁿ (ai ∈ Q) 형태로 표현됨을 알고 있습니다. 그러나 K의 정수환 OK는 단일 원소의 멱승으로 구성된 기저(power basis)를 Z에 대해 갖지 않을 수 있습니다. 사실, 그러한 기저를 형성하기 위해 임의로 많은 수의 원소를 필요로 하는 수체(number field)가 존재합니다. 질문은 멱승 기저를 갖지 않는 모든 정수환 OK가 유한 확장체 L_K에 대해 멱승 기저를 갖는 정수환 OL로 확장될 수 있는가입니다.
역사 분야)
- 질문: 스웨덴에서 핀란드까지 가는 최초의 육로 도로는 무엇이었나?
- 질문에 대한 상세 설명: 이 질문은 스웨덴에서 당시 스웨덴령이었던 핀란드까지 건설된 최초의 육로 도로가 어디였는지를 묻고 있습니다. 질문자는 노르웨이에서 스웨덴을 거쳐 올란드 제도를 통해 핀란드 남부로 이어지는 스웨덴 우편 도로에 대한 증거는 찾았으나 스웨덴에서 핀란드까지의 육로에 대한 구체적인 정보를 찾지 못했습니다. 1808-1809년 전쟁에서 러시아군이 스웨덴으로 육로로 진격할 계획이었다는 기록과 16세기 핀란드 라플란드에서 핀마르크로 이어졌다는 "핀마르크 길"에 대한 언급이 있지만, 명확한 답을 찾기 어렵다는 내용이 포함되어 있습니다. "도로"의 정의는 목적에 따라 건설되거나 개발되어 지역적으로 사용된 길로 한정합니다.
UQ Validators를 이용한 평가 지금까지의 벤치마크 데이터셋은 정답이 있었습니다. 그래서 평가 대상 LLM이 생성한 답변과 정답을 비교해서 점수를 매기는 것이 가능합니다. 하지만 UQ는 앞에서 언급한 것처럼 정답이 없는 질문들이기 때문에 평가 대상 LLM이 생성한 답변이 맞는지 틀린지 알 수 없습니다.
UQ의 목적은 답변의 정확도를 평가하는 것이 아니라 답변을 도출하는 과정에서 논리적인 오류나 비약이 없는지를 확인하는 것입니다. UQ Validators는 세 가지 전략으로 나눠 답변을 평가합니다.
1) 낮은 수준의 전략 (Low-level Strategies) 정확성(Correctness), 사실/논리 확인(Fact/Logic Check), 질문-답변 순환 일관성(Cycle Consistency)을 기준으로 평가합니다. 답변이 질문을 정확하게 이해한 상태에서 생성되었으며 사실적이고 논리적 오류가 없는지 판단합니다.
2) 중간 수준의 전략 (Mid-level Strategies) 반복 샘플링(Repeated Sampling), 반복적 반성(Iterated Reflection)을 기준으로 평가합니다. LLM이 일관된 답변을 생성하는지 확인하기 위해 초기 조건을 조금씩 달리하면서 여러 번 답변을 생성하도록 하였고, LLM이 생성한 답변에 대해 문제가 없는 게 맞는지 반복해서 질문해 보는 식으로 진행하였습니다.
3) 높은 수준의 전략 (High-level Strategies) 만장일치 투표(Unanimous Voting) 및 파이프라인 검증(Pipeline Verification)을 기준으로 평가합니다. LLM이 생성한 답변들이 모두 문제가 없어야 하며 답변이 현재 단계를 통과해야 다음 단계로 진행할 수 있습니다.
|
|
|
< 그림 2. UQ Validators 평가 과정에서 Pipeline 예시 > |
|
|
위 세 단계를 거쳐 LLM이 생성한 답변에 논리적인 문제가 있는지 없는지 판단할 수 있습니다. 다만 평가는 논리적인 부분에 중점을 두고 있기 때문에 UQ Validators에서 높은 점수를 받았다고 해서 실제로 답변이 맞았는지 틀렸는지는 알 수 없습니다.
UQ Platform4)을 이용한 평가 UQ Platform에서는 UQ Validators를 통과한 답변을 사람이 평가할 수 있습니다. 스택익스체인지에 댓글이 달리면 질문자뿐만 아니라 다른 사람들도 의견을 남기고 평가를 하는 것과 동일하게 많은 사람들이 참여해서 LLM이 생성한 답변을 평가하게 됩니다. 실제로 UQ 데이터셋에 포함된 문제 중에서 LLM의 답변을 스택익스체인지에 올린 질문자가 채택한 사례들도 있어서 UQ 접근 방식이 LLM을 평가하는 새로운 방법이 될 수 있음을 보여주고 있습니다.
|
|
|
< 그림 3. UQ Platform에 등록된 문제 및 답변 > |
|
|
정리 페르마의 마지막 정리5)는 중학생도 이해할 수 있는 수준의 문제로 페르마가 노트 한쪽에 증명하였지만 여백이 부족해 적지 않았다고 남기면서 더 유명해졌습니다. 이 문제는 수백 년 동안 내로라하는 수학자들을 괴롭히다가 1995년 앤드류 와일즈가 해결하면서 증명에 종지부를 찍었습니다. 다만 페르마가 남긴 메모와는 달리 논문은 최신 수학을 동원하였고 무려 100페이지가 넘습니다. 리만 가설, P-NP 문제 등도 역시 대표적인 미해결 문제로 남아있는데 언젠가는 LLM이 기존 증명 과정을 향상시키거나 어려운 문제들을 푸는 날이 올지도 모르겠습니다.
|
|
|
👉🏻챗GPT의 거짓말, 이유는?…오픈AI “모르면 찍기 때문”
오픈AI 연구진은 최근 보고서를 통해, AI가 ‘모른다’ 대신 틀려도 답을 내놓는 이유가 기존의 평가 방식에 있다고 설명했습니다. 정답만 점수를 받는 구조 탓에 AI는 찍더라도 답하는 편이 유리해지고, 그 결과 자신감 있는 오답이 만들어진다는 분석입니다. 또한 방대한 데이터를 정답·오답 구분 없이 학습하는 과정에서, 규칙성이 없는 질문에는 ‘그럴듯한 오답’을 내놓을 수밖에 없는 한계가 드러났습니다. 연구진은 암호 해독이나 개인 정보처럼 정답을 낼 수 없는 영역에서는 환각 현상을 완전히 피할 수 없다고 지적했습니다. 다만 평가 체계와 학습 방식을 개선해, AI가 확실할 때만 답변하도록 설계한다면 환각을 크게 줄일 수 있다는 제언을 내놓았습니다.
👉🏻'데이터 장벽'에 막힌 한국…AI 기술력 갖춰도 산업화 좌초 위기
한국인공지능·소프트웨어산업협회(KOSA) 보고서에 따르면 한국의 AI 기술 경쟁력은 세계 6위지만, 데이터 활용을 포함한 운영환경은 35위로 크게 뒤처진 것으로 나타났습니다. 개인정보 보호 규정, 저작권 검증 부담, 기관 간 데이터 공유 한계 등 복잡한 규제가 기업들의 데이터 활용을 가로막으며 산업 현장에서 사업 차질을 빚고 있습니다. 특히 스타트업은 대기업보다 데이터 접근성이 낮아 학습 데이터 확보에 큰 어려움을 겪고 있으며, 이는 산업화·상용화 단계에서 경쟁국과 격차를 벌릴 수 있다는 우려로 이어집니다. 보고서는 의료·금융·제조 등에서 확산 중인 버티컬 AI의 경쟁력을 지키기 위해, 사례 중심의 명확한 데이터 활용 기준과 제도적 기반 마련이 시급하다고 강조했습니다.
👉🏻국가AI전략委 공식 출범…李 대통령 "AI는 국가 핵심 생존전략"
대통령 직속 국가인공지능전략위원회가 공식 출범하며, 대한민국을 ‘AI 3대 강국’으로 도약시키기 위한 국가 차원의 액션플랜이 논의됐습니다. 이번 회의에서는 AI 혁신 생태계 조성, 산업·공공 전반의 AI 대전환, 글로벌 AI 기본사회 실현을 축으로 한 12대 전략 분야 추진 방안이 제시됐습니다. 특히, 국가 AI컴퓨팅 센터는 민·관 협력 모델로 추진되며, 민간 지분 확대와 규제 완화로 기업 참여 문턱을 낮추기로 했습니다. 내년 1월 시행 예정인 AI기본법 하위법령은 최소 규제 원칙을 바탕으로 지원 범위와 안전 의무를 명확히 하고, 고영향 AI 가이드라인을 통해 기업의 불확실성을 줄인다는 계획입니다. 위원회는 기술, 산업, 데이터, 국방 등 8개 분과와 정부 부처, 민간 전문가 50명 이내로 구성돼 AI 정책 총괄·조정 역할을 수행합니다. |
|
|
플리토가 AI 동시통역 솔루션 ‘라이브 트랜스레이션’을 앞세워 글로벌 컨퍼런스 시장 공략에 속도를 내고 있습니다. 플리토는 지난달 30일, 31일 이틀간 대만 국립정치대학에서 열린 ‘아이플레이그라운드 2025’의 특별 파트너사로 참여해 25개 이상의 세션 전체에 실시간 다국어 통역을 지원했습니다. 참가자들은 스마트폰이나 앱을 통해 최대 42개 언어의 동시통역 서비스를 즉시 이용할 수 있었으며, 이를 통해 글로벌 연사와 현지 개발자 간 원활한 소통이 가능해졌습니다. 플리토는 단순 솔루션 제공에 그치지 않고, 자체 글로벌 AI 솔루션과 도입 사례를 공유하는 발표 세션을 통해 커뮤니케이션 혁신 비전도 제시했습니다. 이번 협력은 행사 규모를 지역에서 글로벌 수준으로 확장시키는 데 결정적인 역할을 했다고 평가받고 있습니다. |
|
|
플리토가 언어 데이터 기술을 앞세워 글로벌 시장에서 입지를 강화하고 있습니다. 이정수 대표는 최근 해외 매출이 급증하며 미국과 일본에서 성과를 내고 있고, 중국에서도 사업을 확장하고 있다고 밝혔습니다. 특히 음성 데이터 수요가 폭발적으로 증가하면서 피지컬 AI와 연결된 차세대 시장 기회가 커지고 있으며, 아동 발화나 저자원 언어 데이터 확보가 중요한 과제라고 설명했습니다. 플리토는 독자 플랫폼을 구축해 전 세계 1,400만 명 사용자로부터 다양한 언어 데이터를 확보하고, 게이미피케이션 방식의 리워드 미션으로 품질 높은 데이터 수집 체계를 마련했습니다. 이를 기반으로 실시간을 넘어 맞춤형 AI 통역까지 제공하는 고도화된 솔루션을 개발해 글로벌 컨퍼런스 현장에서 가장 찾는 통역 서비스로 자리매김했습니다. |
|
|
Beyond Language Barriers!
|
|
|
플리토 (Fliitto Inc.)
서울 강남구 영동대로96길 20 대화빌딩 6층
|
|
|
|
|