[AI Data News Lab] 데이터 사용하셨어요? 2조원입니다💸

2025년 9월 5주차 - AI Data News Lab

2025. 9. 28.

2025년 9월 5주차 AI Data News Lab

데이터 사용하셨어요? 2조원입니다💸

미국의 AI 스타트업인 앤트로픽은 소설가들과의 집단 소송을 합의하기 위해 최소 15억 달러, 우리나라 돈으로 약 2조원 이상을 지급하는 데 동의했습니다. 해당 작가들은 앤트로픽이 자신들의 책에 불법적으로 접근했다고 주장해 왔는데요. 이들 간 합의가 승인될 경우, 이 건은 역사상 공개된 저작권 배상액 가운데 최대 규모가 될 것으로 보입니다.

앤트로픽은 작가 한 명당 약 3,000달러와 함께 이자를 지급하고, 불법으로 복제된 자료를 포함한 데이터셋도 모두 폐기하기로 약속했다고 CNBC는 보도했습니다. 'Anthropic agrees to pay $1.5 billion to settle authors’ copyright lawsuit' 기사를 보면, 해당 소송은 수많은 AI 스타트업과 미디어 기업들이 AI 시대에서의 저작권 침해 기준을 가늠하기 위해 예의 주시하고 있다고 설명했는데요. 이번 합의는 AI 기업과 창작자 모두에게 저작권이 있는 작품을 무단으로 가져오는 것은 옳지 않다는 메시지를 주고 있습니다.

출처: CNBC_Anthropic agrees to pay $1.5 billion to settle authors’ copyright lawsuit

이번 합의는 앤트로픽만의 문제가 아닐 수 있습니다. 앞으로 국내외 수많은 AI 기업들은 자신들이 사용한 데이터의 출처와 합법성을 상세하게 증명해야 하는 시대를 맞이했습니다. “당신의 학습 데이터는 어디서 왔나요?”라는 질문을 받았을 때 명확하게 대답할 수 있어야 하는 것이죠. 앤트로픽의 합의가 어떤 결론에 도달하든 간에, 이제 AI 학습에 필요한 데이터를 어떻게 수집했는지가 AI 기업들의 경쟁력을 결정할 것으로 전망됩니다.

AI Insight

챗GPT 사용자들이 원하는 것은 무엇일까?

글로벌 AI 시장을 주도하는 챗GPT의 사용 패턴이 빠르게 변하고 있습니다. 오픈AI는 하버드대 경제학자와의 협력을 통해 챗GPT의 주간 활성 사용자 7억 명이 어떻게 서비스를 활용하는지 대규모 조사를 진행했습니다. 연구에 따르면 챗GPT는 업무 중심에서 점점 더 개인적 용도로 활용되고 있으며, 사용자 성별 구성 역시 변화하고 있는 걸 확인했다고 합니다.

이번 뉴스레터에서는 DeepLearning.AI의 The Batch 채널에 게재된 'What ChatGPT Users Want' 내용을 통해 챗GPT를 사용하는 사람들의 특징이 무엇인지 자세히 소개해 드리겠습니다.

해당 연구는 작년 5월부터 올해 7월까지 약 1년이 넘는 기간 동안 로그인한 성인 개인 사용자의 대화 110만 건 이상에서 무작위로 추출한 158만 개 메시지를 분석했습니다. 비즈니스 계정이 아닌 개인 구독자를 대상으로 했고, 연구진은 작성자의 이름을 토대로 성별 분류를 하고, 이용자가 제공한 연령, 지역을 기준으로 추가 구분했습니다. 메시지는 주제, 의도, 그리고 구체적 과업으로 나눠 분석되었습니다.

결과를 보면, 챗GPT는 젊은 사용자가 주축을 이루고 있으며 여성 사용자의 비중이 꾸준히 늘어났습니다. 18~25세 연령대가 전체 메시지 중 46%를 차지했으며, 26~66세는 업무에 활용하는 비중이 더 높았습니다. 여성 이름으로 분류된 사용자의 메시지는 작년 1월 37%에서 올해 6월 52%로 상승했습니다. 또한 업무 목적보다 개인적 활용이 빠르게 증가하며, 올해 7월 기준 전체 사용 중 73%가 비업무 용도로 추정됐습니다.

비업무적 활용에서 가장 많은 요청을 보인 부분은 정보 탐색(24.4%)과 실용적 조언(28.8%)이었고, 업무 활용은 기존 글의 편집, 비평, 번역, 변환 요청이 주를 이뤘습니다. 전반적으로 이용자는 결과물 생성이나 단순 대화보다 질문을 더 많이 던졌고, 가장 빈번한 요청은 실용적 조언(28.3%), 글쓰기(28.1%), 그리고 정보 탐색(21.3%)이었습니다.

오픈AI는 이번 보고서를 “현재까지 수행된 가장 대규모의 챗봇 활용 연구”라고 평가했습니다. 이 같은 결과는 AI 사용자층과 활용 방식이 점점 더 다변화하고 있음을 보여주는데요. 출시 초기의 경우, 미국에 거주하는 고학력, 고소득의 젊은 남성 사용자들이 주 사용자였지만, 이제는 훨씬 다양한 배경과 목적을 가진 사람들이 챗GPT를 이용하고 있습니다. 또한 초기에는 업무에 가장 많이 사용될 것으로 예상됐지만, 실제로는 개인적 문제 상담, 정보 탐색 등에도 폭넓게 활용되고 있습니다. 이러한 점은 우리가 업무뿐 아니라 삶 전체에서 더 많은 지식을 필요로 한다는 점을 보여줍니다.

AI Tech Story

AI는 방언을 알아들을 수 있을까?

몇 년 전 일본에서 출판된 한국어 교재가 온라인에서 화제가 되었습니다. 우리나라에서는 다양한 일본어 교재가 출판되고 있으며, 일본에서도 역시 매년 한국어 교재가 나오고 있기 때문에 한 권의 책이 새로 나왔다고 해서 특별한 일은 아닙니다. 하지만 그 책은 외국인들이 한국어를 공부할 때 배우는 ‘표준어’ 교재가 아니라 다름 아닌 ‘부산어’ 교재1)였습니다.

영어는 영국, 미국, 호주 등을 포함해 많은 나라에서 쓰이고 있는데 같은 영어라고는 하지만 단어나 발음, 억양이 조금씩 다릅니다. 스페인 및 중남미 각국에서 모국어로 쓰는 스페인어 역시 스페인-스페인어, 멕시코-스페인어, 콜롬비아-스페인어 등으로 구분합니다. 중국은 우리나라의 수십 배에 달할 정도로 넓기 때문에 같은 중국어라고 해도 지역마다 차이가 커서 성(省)을 넘어가면 의사소통이 잘되지 않는다고 합니다.

이처럼 같은 언어라도 다양한 방언들이 있습니다. 보통 외국어를 배울 때는 표준어를 배우며, AI 음성 인식 모델 역시 표준어 음성 데이터셋을 구축해 학습을 합니다. AI 음성 인식 모델의 성능이 높아지면서 이제는 방언도 이해할 수 있도록 방언 음성 데이터셋 구축도 활발히 진행되고 있습니다.

Voxlect2) - 방언 평가 벤치마크
언어별로 AI 음성 인식 모델을 학습하거나 평가할 수 있는 데이터셋이 있으며, 대표적으로 CommonVoice3)가 있습니다. 한국어의 경우 AIHub4)에서 고품질의 음성 파일들을 다운로드 받아 학습이나 평가에 활용할 수 있습니다. 반면 방언 데이터셋은 구하기 쉽지 않은데 Voxlect는 주요 언어의 방언 음성 데이터셋을 모아 벤치마크 데이터셋으로 구성하였습니다.

Voxlect에 포함된 지역별 방언

< 그림 1. Voxlect 벤치마크 데이터셋에 포함된 방언 >

위 그림의 왼쪽 상단부터 시계 방향으로 각각 인도, 북아프리카, 중국, 중남미(스페인어권), 중남미(포르투갈어권), 독일, 동남아시아입니다. 중국이나 인도 등 영토가 넓은 나라에서는 같은 나라에서도 다양한 방언들이 쓰이는 것을 알 수 있습니다.

Voxlect 상세 구성

< 표 1. Voxlect 방언 데이터셋 구성 >

CommonVoice 외에도 많은 공개된 음성 데이터셋이 있습니다. 그중에는 방언을 모은 음성 데이터셋도 있는데 보통 그 언어를 모국어로 쓰지 않으면 방언 음성 데이터셋을 찾아서 사용하기 쉽지 않습니다. Voxlect에서는 영어, 중국어, 독일어, 스페인어 등 주요 언어를 중심으로 표준어 뿐만아니라 방언 음성 데이터셋까지 전부 모아서 벤치마크 데이터셋으로 구성하였다는 점에서 의의가 있습니다.

Voxlect 벤치마크 데이터셋을 위한 선별
그럼 Voxlect는 단순히 방언 음성 데이터셋을 모아놓은 것일까요? 공개된 음성 데이터셋의 음성을 모두 하나하나 들어보고 판단할 수 없기 때문에 알 수는 없지만 잘못된 음성 데이터가 섞여 있을 수도 있습니다. 이러한 음성 파일들은 AI 음성 인식 모델을 강건하게 만드는 데 도움이 되기도 하지만 벤치마크 데이터셋에 잘못된 데이터가 있다면 AI 음성 인식 모델을 정확하게 평가하지 못하는 문제가 있습니다.

Voxlect에서는 몇 가지 방법을 이용해 방언 음성 데이터셋 중에서 벤치마크로 사용할 음성 데이터를 선별하였습니다. 대표적인 방법은 아래와 같습니다.

음성 길이 제한: 3초 미만의 너무 짧은 음성은 제외하였으며, 15초가 넘는 음성은 15초까지만 사용하였습니다.
음질 표준화: 음성 데이터셋마다 포맷이 달라 이를 16kHz로 리샘플링하여 모든 음성 파일들을 동일한 포맷으로 맞추었습니다.
모호한 레이블 제외: 정확하게 레이블이 되지 않은 음성은 제외하였습니다. 예를 들어, 영어의 경우 스코틀랜드, 웨일즈 등 구체적인 지역 정보가 있는 음성은 포함하였으나, 브리티쉬(British)와 같이 지역을 특정할 수 없는 경우는 제외하였습니다.
다양한 음성 포함: 상대적으로 방언 음성 데이터가 많은 경우 한 화자당 개수를 제한해 최대한 다양한 음성이 포함될 수 있도록 하였습니다.

Voxlect 활용 방안 - TTS 평가
Voxlect는 음성 인식 모델이 방언을 제대로 인식하는지 확인하기 위한 벤치마크 데이터셋입니다. 따라서 주된 활용 목적은 STT(Speech-to-Text) 모델을 평가하기 위한 용도이지만, 방언 TTS(Text-to-Speech) 모델을 평가하는 데에도 활용될 수 있습니다.

일반적으로 TTS 모델은 STT 모델과 동일하게 각 언어의 표준어를 기준으로 만들어집니다. 하지만 STT 모델이 방언을 인식하기 시작한 것처럼 반대로 표준어가 아닌 방언으로 읽도록 하는 TTS 모델도 만들 수 있습니다. 이렇게 만들어진 방언 TTS 모델의 성능을 평가하기 위해서는 사람이 직접 듣고 판단하는 MOS(Mean Opinion Score)5)로 평가해야 하지만 사람마다 주관이 개입될 수 있고, 각 언어의 방언을 잘 알아야하기 때문에 평가자를 구하는 것도 쉽지 않습니다.

< 표 2. 방언 TTS를 사람이 평가한 결과와 방언을 인식하는 STT로 평가한 결과 >

Voxlect는 다양한 방언을 포함하는 음성 데이터셋이기 때문에 공개된 음성 인식 모델인 Whisper Large를 파운데이션 모델로 하여 방언도 인식할 수 있도록 미세조정(fine-tuning)을 수행하였으며, 이 모델을 사용해 TTS로 만들어진 방언 음성을 다시 음성을 인식해 텍스트로 전사하는 방법으로 점수를 계산하였습니다.

위 표에서 볼 수 있듯이 사람이 평가한 점수와 Voxlect 데이터셋으로 학습한 모델의 평가 점수가 상관 관계를 가지는 것을 알 수 있습니다. 따라서 Voxlect 데이터셋을 방언 TTS 모델을 평가할 때도 활용할 수 있습니다.

정리
전 세계에는 수천 개 이상의 언어가 있으며, 그중에는 다양한 방언을 가진 언어도 많습니다. 방언은 오랫동안 그 지역에서 살아온 사람들과 함께하면서 역사와 문화, 철학 등이 녹아있기 때문에 표준어로는 의미를 제대로 전달할 수 없는 경우도 있습니다.

최근에는 AI의 음성 인식 성능이 향상되면서, 더 성능을 높이기 위해 방언 데이터셋을 필요로 하는 기업들도 늘어나고 있습니다. 플리토도 국내외 기업들의 의뢰를 받아 다양한 방언 음성 데이터셋 구축 프로젝트를 진행하고 있습니다. 이러한 프로젝트를 통해 방언도 소중한 문화유산으로 보존되고 지켜나갈 수 있기를 기원합니다.

1) https://product.kyobobook.co.kr/detail/S000048373114
2) https://github.com/tiantiaf0627/voxlect
3) https://commonvoice.mozilla.org/en/datasets
4) https://www.aihub.or.kr
5) https://en.wikipedia.org/wiki/Mean_opinion_score

AI 언어 데이터 산업 주요 소식

👉🏻진짜 가짜 구별 힘들어진 AI시대, ‘진위 감별사’ 뜨다
한국개발연구원(KDI)은 2030년이면 직무의 90%가 자동화될 수 있다고 전망했습니다. 실제로 가짜 이메일, 허구 기사, 딥페이크 금융사기, 잘못된 법률 문서, 챗봇 오류 등 다양한 피해 사례가 이어지며 신뢰 문제가 대두되고 있습니다. 이에 대응해 ‘AI 진위 감별사’, ‘AI 컴플라이언스 전문가’와 같은 새로운 직업군이 부상하고 있는데요. 디자이너와 편집자들이 인공지능이 만든 결과물을 보정 및 검증하는 일이 늘어나고 있으며, 글로벌 기업들도 윤리와 신뢰 관리를 강화하고 있습니다. 또한 AI 모델 오류를 수정하는 인간 피드백 기반 학습(RLHF)과 콘텐츠 평가자는 필수적인 역할로 자리 잡고 있습니다. 결국 첨단 기술이 새로운 위험을 낳는 동시에 새로운 일자리를 창출하며, 인공지능 시대의 직업 지형을 바꾸고 있습니다.

👉🏻"충동강화 금지"…美캘리포니아 세계 첫 'AI 챗봇 규제법' 통과
캘리포니아 주의회가 ‘AI 정신병’ 논란 속에서 미성년자를 보호하기 위한 AI 챗봇 규제 법안 SB-243을 통과시켰습니다. 이 법안은 뉴섬 주지사의 서명이 이뤄지면 내년 1월 1일부터 세계 첫 AI 챗봇 규제법으로 시행됩니다. 법안은 AI 컴패니언 챗봇이 자해, 극단적 선택, 성적 대화 등을 유발하지 않도록 안전 프로토콜을 마련하고, 미성년자에게는 대화 중임을 3시간마다 알리며 휴식을 권고하도록 규정합니다. 또 오픈AI, 캐릭터AI, 리플리카 등 주요 기업은 2027년 7월부터 연례 보고와 투명성 요건을 충족해야 하며, 불이행 시 법적 책임을 집니다. 이번 법안은 캘리포니아주 16세 소년의 극단적 선택 사건을 계기로 강화됐으며, 앞으로 글로벌 AI 서비스 규제의 기준점이 될 전망입니다.

👉🏻"안경렌즈에 AI 번역·지도 뜬다"…메타 '스마트글라스 3종' 공개
메타가 ‘메타커넥트 2025’에서 차세대 스마트글라스와 웨어러블 신제품을 대거 공개했습니다. 첫 선을 보인 메타 레이밴 디스플레이는 협업 라인업 최초로 디스플레이를 탑재해 지도, 메시지, 번역, 영상통화 등을 렌즈 위에서 바로 구현합니다. 스포츠 활동용 오클리 메타 뱅가드는 122도 화각 카메라, 손떨림 방지, 9시간 배터리 등을 갖춰 출시합니다. 업그레이드된 레이밴 메타 2세대는 배터리를 2배 강화해 최대 8시간 사용 가능하며, 3K 울트라 HD 촬영과 ‘Conversation Focus’ 기능을 탑재했습니다. 메타는 또 손목 움직임으로 스마트글라스를 제어할 수 있는 웨어러블 뉴럴 밴드와 그래픽, 렌더링 성능을 대폭 개선한 메타버스 엔진 호라이즌 엔진을 발표했습니다. 이번 신제품군은 하드웨어 및 소프트웨어를 아우르며 메타의 차세대 메타버스 전략을 본격화한 신호탄으로 평가됩니다.

Flitto News

플리토, 세계지식포럼 2025 전 세션에 AI 동시통역 솔루션 제공

플리토가 지난 9일부터 11일까지 서울 장충아레나와 신라호텔에서 열린 '세계지식포럼 2025' 전 세션에 AI 동시통역 솔루션을 제공했습니다. 세계지식포럼은 정치·경제·과학기술 분야 글로벌 리더들이 모이는 지식 교류의 장으로, 올해는 ‘대전환기를 항해하는 인류의 새 도전’을 주제로 열렸습니다. 플리토는 연사들의 발표 내용을 영어, 한국어로 동시통역해 제공했으며, 발표 내용은 대형 스크린과 전용 랜딩 페이지를 통해 최대 42개 언어로 제공됐습니다. 지난해 일부 세션에 도입된 플리토의 '라이브 트랜스레이션'은 올해 모든 세션으로 확대 적용돼 지식 공유의 폭을 넓혔습니다. 한편, 이정수 대표는 세계지식포럼과 연계된 행사 '트라이 에브리싱 2025'에서 AI 기반 디지털 전환 사례를 발표하는 시간도 가졌습니다.

플리토, 국내 애플 개발 컨퍼런스에서 AI 동시통역 기술력 뽐내

플리토가 국내 최대 애플 생태계 개발 컨퍼런스 KWDC25에서 AI 동시통역을 지원하며 글로벌 소통을 이끌었습니다. 이번 행사에는 해외 연사가 절반 이상 참여했으며, 플리토의 실시간 동시통역 솔루션 '라이브 트랜스레이션'을 통해 42개 언어로 원활한 소통이 이뤄졌습니다. 참가자들은 QR코드 접속과 화면 송출로 통역을 이용하고, ‘애스크 투 스피커’ 존을 통해 글로벌 연사와 실시간 질의응답도 진행했습니다. 또 챗 트랜스레이션 솔루션으로 다자간 대화형 AI 통역 서비스를 스마트폰에서 간편하게 활용했습니다. 플리토는 행사 부스에서 데모 계정을 제공해 누구나 기술을 직접 체험할 수 있도록 했습니다. 이정수 대표는 앞으로도 글로벌 테크·개발 행사에서 언어 장벽 없는 경험을 지원하기 위해 기술 고도화를 이어가겠다고 강조했습니다.

Beyond Language Barriers!

플리토 (Fliitto Inc.)

서울 강남구 영동대로96길 20 대화빌딩 6층

수신거부 Unsubscribe

Flitto AI Picks를구독하고 이메일로 받아보세요

이전 뉴스레터

[AI Data News Lab] 효율과 창의성 사이, 유튜브 속 AI 딜레마🤷🏻

2025. 9. 14.

다음 뉴스레터

[AI Data News Lab] "고마워 인도💖" 구글이 웃을 수밖에 없는 이유

2025. 10. 19.