2025년 12월 1주차 - AI Data News Lab 2025년 12월 1주차 AI Data News Lab |
|
|
|
SK하이닉스가 반도체 컨셉을 담은 스낵 'HBM 칩스'를 출시했다고 밝혔습니다. 반도체와 과자라니, 뭔가 어울리지 않는 생소한 조합처럼 보이는데요. 이러한 기획은 SK하이닉스가 반도체를 소비자들이 일상 속에서도 자연스럽게 느낄 수 있는 존재로 바꾸기 위해 시도한 것으로 볼 수 있습니다.
AI 시대를 주도하는 HBM(High Bandwidth Memory)은 SK하이닉스의 핵심 기술이자 경쟁력인데요. 하지만, 일반 대중에게 있어 반도체는 잘 와닿지 않는 산업이기도 합니다. 그래서 회사는 이를 친근하게 풀어내기 위해 '칩'을 '실제 과자'로 형상화한 후 'HBM'이라는 기술 명칭을 재치 있는 마케팅 언어로 재해석했습니다.
|
|
|
SK하이닉스의 이러한 시도는 단순한 제품 협업을 넘어 기술 중심 기업이 어떻게 브랜드 경험을 소비자들에게 확장할 수 있는지를 보여줍니다. SK하이닉스는 이번 제품 출시를 시작으로 HBM 제품을 의인화한 캐릭터를 공개하며 본격적인 홍보에 나설 계획이라고 하는데요. 이러한 SK하이닉스의 사례는 B2B 산업에서 기술 홍보가 브랜드 문화로 어떻게 전환이 이루어지는 지를 살펴볼 수 있는 좋은 기회로 보입니다. |
|
|
나노 바나나 프로를 최대한 활용할 수 있는 팁
구글의 최신 이미지 생성 모델인 나노 바나나 프로(Nano Banana Pro)는 텍스트 렌더링, 크리에이티브 제어 기능 등 다방면에 있어 혁신적인 기능을 제공합니다. 제미나이 3를 기반으로 한 나노 바나나 프로는 지금까지 선보인 이미지 모델 중 가장 진보된 버전으로, 상상력과 전문적인 결과물 사이의 간극을 메우고 있죠.
현재 나노 바나나 프로는 제미나이 앱에서 사용 가능하며, AI 스튜디오 등으로도 점차 확장되고 있습니다. 또한, 다국어 텍스트 렌더링, 최대 14장의 이미지를 조합 입력할 수 있는 고급 제어 기능 등을 갖추고 있습니다. 구글은 블로그를 통해 '7 tips to get the most out of Nano Banana Pro'라는 글을 공개했는데요. 이 글을 통해 어떤 방식으로 이미지를 생성할 수 있는지 팁을 소개하고 있습니다.
|
|
|
출처: [Google] 7 tips to get the most out of Nano Banana Pro |
|
|
스토리, 주제, 스타일 등 정하기
나노 바나나 프로를 활용한 최상의 결과와 창의성을 발휘하기 위해 프롬프트에 다음 요소들을 포함해 보세요.
- 주제(Subject): 이미지 속 인물 또는 대상을 구체적으로 설정합니다.
(예: 푸른빛 눈을 가진 냉정한 로봇 바리스타, 작은 마법사 모자를 쓴 긴 털의 삼색 고양이)
- 구도(Composition): 장면이 어떤 방식으로 프레임에 담기는지를 지정합니다.
(예: 극단적 클로즈업, 와이드샷, 로우 앵글)
- 행동(Action): 무엇이 일어나고 있는지를 명확히 합니다.
(예: 커피를 내리는 중, 마법 주문을 시전하는 중, 들판을 달리는 중간 장면)
- 배경(Location): 장면의 장소를 설정합니다.
(예: 화성의 미래형 카페, 어수선한 연금술사의 서재, 황금빛 저녁의 초원)
- 스타일(Style): 전체적인 미적 방향을 제시합니다.
(예: 3D 애니메이션, 느와르 영화풍, 수채화 스타일, 사실주의, 1990년대 제품 광고 사진)
- 편집 지시(Edit Instructions): 기존 이미지 수정 시에는 명확하고 구체적으로 표현합니다.
(예: 남자의 넥타이를 초록색으로 바꾼다, 배경의 자동차를 제거한다)
디테일 다듬기: 카메라, 조명, 형식 간단한 프롬프트도 작동하지만, 전문가 수준의 결과를 얻으려면 보다 세밀한 지시가 필요합니다. 아래 고급 요소들을 함께 고려해 보세요.
- 구도 및 비율: 캔버스의 형식을 정의합니다.
(예: 9:16 세로 포스터, 21:9 시네마틱 와이드샷)
- 카메라 및 조명 세부 설정: 촬영감독처럼 장면을 지휘합니다.
(예: 얕은 피사계 심도(f/1.8)의 로우 앵글 샷, 긴 그림자를 드리우는 골든아워 역광, 청록 빛이 강조된 시네마틱 색보정)
- 텍스트 삽입: 어떤 문구를 어떤 형식으로 넣을지 명확히 지정합니다.
(예: 'URBAN EXPLORER'라는 문구를 상단에 흰색 볼드 산세리프체로 렌더링)
- 정확성 명시(도표용): 과학적, 역사적 정확성을 요구하는 경우 명시합니다.
(예: 과학적으로 정확한 단면도, 빅토리아 시대의 역사적 정확성 유지)
- 참조 이미지: 업로드한 이미지가 각각 어떤 역할을 하는지 지정합니다.
(예: 이미지 A는 캐릭터 포즈, B는 아트 스타일, C는 배경으로 사용)
|
|
|
출처: [Google] 7 tips to get the most out of Nano Banana Pro |
|
|
프롬프트 예시: 창의적 기법의 쇼케이스 다양한 프롬프트 전략을 활용하면 사실적인 편집부터 판타지적 세계까지 폭넓게 구현할 수 있습니다.
- 탁월한 텍스트 렌더링으로 시각물 생성: 선명하고 읽기 쉬운 텍스트를 활용해 임팩트 있는 포스터, 정교한 다이어그램, 상세한 제품 목업을 제작할 수 있습니다.
- 현실 세계를 반영한 생성: 제미나이 3 프로의 실제 지식과 추론 능력을 바탕으로 정확하고 풍부한 디테일의 이미지를 만듭니다.
- 아이디어 번역 및 현지화: 이미지 속 텍스트를 자동 번역하거나 다국어 버전으로 생성합니다.
- 스튜디오 수준의 품질 제어: 조명, 카메라 각도, 초점, 색보정 등을 정밀하게 조정하여 전문가 수준의 결과를 얻습니다.
- 정밀한 리사이징: 1K, 2K, 4K 해상도 등 다양한 비율로 조합을 시도하며 선명한 이미지를 생성합니다.
- 여러 인물의 일관성 유지: 최대 6~14장의 서로 관련 없는 이미지도 균형 있게 합성하여 캐릭터 일관성을 유지하며 새로운 장면을 만듭니다.
- 브랜드 룩앤필 구현: 패턴, 로고, 그래픽 등을 3D 오브젝트나 포장재에 자연스럽게 덧입혀 브랜드 정체성이 유지된 시각물을 만듭니다.
|
|
|
웹크롤링 데이터로 아랍어 멀티모달 데이터셋 만들기
2022년 말 챗GPT가 등장했을 때, 많은 사람들이 큰 충격을 받았습니다. 이전에는 원하는 정보를 찾기 위해 구글이나 네이버 같은 검색 엔진에 키워드를 입력하고, 결과 웹페이지들을 일일이 클릭해 보면서 원하는 답을 찾아야 했습니다. 반면 챗GPT는 접근 방법이 전혀 달랐습니다. 궁금한 내용을 마치 선생님이나 친구들에게 물어보는 것처럼 입력하기만 하면 답을 알려주었기 때문입니다. 처음에는 텍스트로 입력하고 텍스트로 결과를 확인할 수 있었는데 이제는 답변을 깔끔하게 표로 만들어 주기도 하고, 내가 원하는 형태를 설명하기만 하면 그에 맞춰 이미지를 생성해 주는 수준으로 발전했습니다.
|
|
|
< 그림 1. 미드저니(Midjourney)를 이용해 생성한 이미지 >
|
|
|
위 그림은 2022년 콜로라도 주립 박람회의 ‘디지털 아트’ 부문에서 1위를 차지한 작품입니다. 기존에 ‘디지털 아트’라고 하면, 사람이 컴퓨터를 이용해 직접 그린 그림을 의미했지만, 이미지를 이해하는 생성형 AI가 등장하면서 이제는 사람이 원하는 그림을 텍스트로 설명하기만 하면 AI가 그 내용을 기반으로 그림을 생성하는 기술로까지 확장되었습니다.
당시 AI를 이용해 생성했다는 사실을 밝히지 않고 출품해 1위를 차지함으로써 큰 논란이 되었었는데, 이후 AI 기술이 빠르게 발전하면서 이제는 사람이 그린 그림인지 AI가 생성한 이미지인지 거의 구분하기 어려운 수준이 되었습니다.
이처럼 AI가 표나 이미지 등 복잡한 형태를 이해할 수 있게 된 이유는 데이터셋에 표와 이미지를 포함해서 학습을 시켰기 때문입니다. 보통 우리가 문서를 작성할 때는 내용에 따라 체계적으로 구조를 나누고 필요시 표를 활용하기도 합니다. 기존에는 대규모 언어 모델(LLM, Large Language Model)을 학습할 때 이러한 문서에서 텍스트만 추출해 학습하였다면, 대규모 멀티모달 모델(LMM, Large Multimodal Model)에서는 문서의 구조와 함께 문서에 포함된 표나 이미지까지 원본 형태 그대로 학습에 사용합니다.
멀티모달 모델을 학습하기 위한 데이터셋
LLM을 만드는 초기에 가장 널리 사용되는 데이터셋 중 하나가 CommonCrawl1) 입니다. CommonCrawl은 온라인상의 웹페이지를 크롤링해 모아둔 것으로 주기적으로 새로운 웹페이지가 추가되고 있습니다. LLM을 개발하는 연구소나 기업 등에서는 별도로 대규모 데이터셋을 구축할 필요없이 CommonCrawl을 이용할 수 있어서 매우 유용합니다.
다만 CommonCrawl은 웹페이지를 단순히 수집해놓은 원천 데이터이기 때문에 LLM학습을 위한 데이터셋으로 활용하기 위해서는 정제 작업을 거쳐야 합니다. 중복된 페이지들이 있거나 여러 언어가 혼재되어 있기도 하고, 학습에 적합하지 않은 내용도 있을 수 있기 때문입니다. 이러한 데이터셋 정제 작업에 널리 사용되는 데이터 파이프라인이 OBELICS2)입니다.
아랍어 특화 정제 파이프라인 WASM3)
OBELICS에서는 몇 가지 기준에 따라 웹사이트를 정제해 LLM 학습용으로 사용할 수 있도록 데이터셋을 생성합니다. 하지만 OBELICS는 영어 기준으로 설계되었기 때문에 동일하게 라틴 알파벳을 사용하는 언어에는 거의 그대로 사용할 수 있지만 그렇지 않은 언어는 고유한 특성이 있어 일부 기준이 맞지 않는 경우도 있습니다.
WASM는 아랍어의 특징을 반영해 OBELICS에서 몇 가지 정제 기준을 조정하였습니다. |
|
|
< 표 1. OBELICS와 WASM의 정제 기준 비교 >
|
|
|
위 필터에서 단어 반복 비율(Word Repetition Ratio)을 조정한 이유는 아랍어는 수사적인 표현으로 단어가 반복되는 경우가 많기 때문이라고 합니다. 다음 아랍어 문장을 예로 들어보겠습니다. |
|
|
영어에서는 이렇게 단어가 반복되면 좋지 않은 문장으로 판단해 OBELICS의 데이터 파이프라인을 통과하면서 걸러지지만 아랍어에서는 자연스럽습니다. 다른 필터들도 아랍어의 특성을 반영해서 정제 기준을 완화하거나 삭제하였습니다.
WASM의 또 다른 차이점은 CommonCrawl을 기반으로 아랍어를 정제하면서 마크다운(Markdown) 포맷으로 문서를 생성한다는 점입니다. 앞에서 언급한 것처럼 사람이 문서를 작성할 때는 구조화를 하지만 학습 데이터셋에서는 이러한 형태가 사라지는 문제가 있었습니다. 마크다운 포맷에서는 제목의 각 단계를 헤딩(Heading)으로 조정할 수 있어서 단락 사이의 포함 관계를 파악할 수 있으며, 표의 형태를 그대로 유지하도록 저장할 수 있습니다.
|
|
|
< 표 2. 일반 문서와 마크다운으로 추출한 문서 예시 > |
|
|
멀티모달 데이터셋에서는 이미지도 중요한 역할을 합니다. CommonCrawl에서는 웹페이지가 저장되어 있기 때문에 이미지에 대한 링크와 함께 설명이 HTML 태그로 표현되어 있습니다. WASM 데이터 파이프라인을 이용하면 세 번째 예시처럼 이미지가 포함된 구조화 데이터셋을 만들 수 있게 됩니다.
- 첫 번째 예시: 이미지 및 이미지에 대한 짧은 설명
- 두 번째 예시: 이미지 및 이미지에 대한 상세 설명
- 세 번째 예시: 이미지 및 이미지에 대한 구조화된 상세 설명
|
|
|
< 그림 2. 이미지와 텍스트 데이터셋 종류 > |
|
|
정리
최근 LLM은 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 형태의 콘텐츠도 매우 높은 수준으로 생성하고 있습니다. 이를 위해서는 다양한 형태의 멀티모달 데이터셋으로 학습하는 것이 필요합니다.
기존 OBELICS는 영어 기반으로 설계되어 다른 언어에는 맞지 않는 부분이 있었던 반면, WASM은 아랍어에 최적화되어 있을 뿐만 아니라 문서를 구조화함으로써 LLM이 체계적으로 이해할 수 있도록 돕습니다. WASM은 아랍어에 최적화되어 있지만 이를 응용하면 한국어나 일본어 등 각 언어에 맞게 필터를 새로 정의해 활용할 수 있습니다.
플리토는 글로벌 AI 기업들을 대상으로 멀티모달 데이터셋을 공급해 오고 있으며 K-AI 독자 파운데이션 모델 프로젝트에서도 최고의 성능을 낼 수 있도록 이러한 데이터셋 구축을 담당하고 있습니다. 멀티모달 모델 개발에 필요한 데이터셋이 있다면 플리토가 적극적으로 지원하겠습니다.
|
|
|
글로벌 빅테크 기업들이 챗GPT 출시 3주년을 앞두고 최신 AI 모델 경쟁에 돌입했습니다. 구글의 제미나이 3는 멀티모달 이해와 추론 능력을 강화해 LM아레나 1위를 차지하며 GPT 5.1을 성능에서 앞질렀습니다. 일론 머스크의 xAI는 공감형 대화 능력을 강화한 그록 4.1을 선보여 한때 평가 사이트 1위를 기록했는데요. 중국의 문샷 AI는 오픈소스 모델 키미 K2 씽킹으로 주요 벤치마크에서 챗GPT 5.0을 제치며 효율성과 성능을 입증했습니다. 반면 국내 AI 모델은 최근 업데이트가 없어 글로벌 경쟁력 격차가 커지고 있는데요. 정부는 내년 상반기 독자 AI 파운데이션 모델 사업의 첫 평가를 진행해 국산 AI 생태계 조성을 추진할 계획입니다.
👉🏻[챗GPT 3년]<2>AI, 일하는 방식을 바꾸다
생성형 AI가 등장한 지 3년 만에 글로벌 기업들은 AI 중심의 조직 운영체계 전환에 박차를 가하고 있습니다. MS, 구글, 아마존, 메타 등은 AI와 데이터센터에 대규모 투자를 진행하며 AI를 전사 업무의 핵심으로 통합하고 있는데요. 구글은 제미나이 기반 시스템을 통해 개발과 고객 지원 등 전 부문 생산성을 높였고, 직원 업무의 절반이 AI에 의해 처리되고 있습니다. 줌은 컴패니언 3.0을 통해 회의, 문서, 고객 대응을 하나의 AI 플랫폼으로 통합하며 업무 자동화를 강화했습니다. 국내의 경우 렛서가 AI 중심 조직(AX)을 실험하며, 사내 문의, 영업 등 반복 업무를 전면 자동화하고 있습니다.
👉🏻"잠자던 거인이 깨어났다"…AI 판 흔들리나
구글이 최신 AI 모델 제미나이 3를 공개하며, 오픈AI의 챗GPT 5.1을 능가했다는 평가로 본격적인 AI 추격전에 나섰습니다. AI 이미지 생성 도구 나노 바나나의 인기와 함께, 메타가 구글의 AI 반도체 TPU 도입을 검토하면서 엔비디아와의 경쟁 구도도 부상했는데요. 구글은 최근 앤스로픽에 대규모 TPU를 공급한 데 이어 반도체 사업 확장에도 속도를 내고 있습니다. 세계 1위 검색엔진과 유튜브, 안드로이드 OS 등 방대한 데이터를 보유한 구글은 AI 학습 인프라에서 압도적인 강점을 가지고 있습니다. AI 열풍 속에서 구글의 최근 약진은 AI 버블 논란 속에서도 기술력과 시장 경쟁력을 입증하는 신호로 받아들여지고 있습니다.
|
|
|
정부가 AI 주권 확보를 위해 독자 파운데이션 모델 개발을 추진 중인 가운데, 한국어의 구조적 복잡성과 데이터 부족이 고성능 K‑AI 개발의 주요 과제로 떠올랐습니다. MS·UMD 연구에 따르면 한국어는 주요 글로벌 모델의 언어 이해 실험에서 26개 언어 중 22위를 기록하며 효율성이 낮게 나타났는데요. 전문가들은 그러나 문제의 본질이 언어 구조가 아니라 부족하고 폐쇄적인 데이터 환경에 있다고 지적했습니다. 김진구 플리토 CDO는 "한국어는 라틴 계열 언어들과 달리 교차 전이 학습 효과를 누리지 못하므로, 고품질 한국어 데이터 확보가 필수적"이라고 설명했습니다. 또한, "정부가 공공 데이터를 비식별화해 과감히 개방하고, 산·학·연이 협력해 최신성 높은 데이터셋을 구축해야 한다"고 덧붙였습니다. |
|
|
플리토는 지난달 19~22일 코엑스에서 열린 '월드커피리더스포럼 2025'와 '서울카페쇼 2025'에서 AI 통번역 기술로 글로벌 미식 소통 환경을 구축했습니다. 이번 포럼은 '미식 경험의 설계자들'을 주제로 75개국 5000여 명이 참가했으며 플리토는 전 세션에 AI 동시통역 솔루션 라이브 트랜스레이션을 제공해 최대 42개 언어로 실시간 통역을 지원했습니다. 또 서울카페쇼에서는 웹 기반 '카페쇼 AI GUIDE'를 통해 37개 언어 안내 서비스를 운영해 전시 현장에서 외국인 방문객의 편의를 높였습니다. 이 서비스는 한국관광공사 주관 인공지능 기반 관광혁신 실증사업의 일환으로 플리토는 AI 통번역 솔루션 공급 기업으로 참여했습니다. |
|
|
Beyond Language Barriers!
|
|
|
플리토 (Fliitto Inc.)
서울 강남구 영동대로96길 20 대화빌딩 6층
|
|
|
|
|