목차
거대언어모델 LLM 이란
거대언어모델(LLM, Large Language Model)은 웹 페이지, 도서, 발행물 등 대규모 문자 데이터를 기반으로 학습된 인공지능 언어 모델이다. 학습 데이터를 단어 또는 부분 단어를 의미하는 토큰(Token)으로 분리하고, 모델에서는 토큰 사이의 연관성을 벡터 형태로 표현하고 토큰의 문맥적 확률을 학습한다. 이를 통해 문장 생성, 요약, 번역 등 다양한 언어 관련 작업을 수행할 수 있다.
주요 제작사와 모델명
제작사 | 대표 모델명 |
---|---|
Meta | LLaMA |
DeepSeek | DeepSeek |
xAI (Elon Musk) | Grok |
OpenAI | GPT (ChatGPT) |
Gemini (ex. Bard) | |
Perplexity | Perplexity |
Microsoft | Copilot (via OpenAI GPT) |
GitHub | GitHub Copilot |
Anthropic | Claude |
NAVER | Clova (HyperCLOVA) |
무료 서비스 vs 데이터
다수의 IT기업은 자체적으로 LLM을 개발하거나, 기존 공개 모델을 개선,보완하여 자사 모델을 구축하고, 이를 기반으로 대화형 웹 서비스나 API 형태의 서비스를 제공한다. 대부분 일정 수준내에서 무료로 사용할 수 있는 공개 서비스(프리티어) 형태로 제공되며, API 호출량 증가, 고성능 모델 접근, 파인 튜닝(사용자 맞춤 학습)등의 고급 기능은 유료로 제공한다.
이러한 서비스는 누구나 접근 가능하지만, 그 기반 정보는 비공개로 유지하는 것이 일반적이다. 인프라 구축과 운영에 막대한 비용이 들어가는 이유다. 거대 언어 모델에는 GPU, 병렬 처리 시스템, 냉각 시스템, 전력 공급 등 고성능 컴퓨팅 환경이 필수적인데, 이로 인해 모델 학습과 운영 과정에서의 비용이 천문학적 수준에 이른다. 결과적으로, 대부분의 기업은 서비스를 공개적으로 제공하면서도, 모델의 세부 구조나 학습에 사용된 데이터, 학습 방식 등은 비공개로 유지되는 경우가 많다.
비공개 유지가 일반적임에도 불구하고, 새로 발생/수집한 데이터로 모델을 학습시키고, 모델의 능력이 지속적으로 개선되면서, 이전 버젼(레거시 모델)은 GitHub, HuggingFace 과 같은 오픈소스 플랫폼을 통해 대중에게 공개되기도 한다.
다만 예외적으로, 최근 중국의 DeepSeek는 자사 모델의 학습 과정, 사용한 데이터, 학습 효율화(비용 절감) 기법 등 주요 정보를 상세히 공개하여 투명성을 강조한 바 있다. 그러나, 공개된 모델을 테스트하는 과정에서 시진핑, 천안문, 위구르 등 중국정부에 민감한 사항에 대해서는 대답하지 못하거나 제한된 정보를 제공하는 것이 확인되었다. 상세한 정보를 공개한 것과 대비되게, 모델의 학습에 사용한 데이터 자체에 편견이나 편향이 있었을 것이라 추측할 수 있는 부분이다.
마치며
LLM 서비스는 이제 우리 생활에 매우 가까워졌지만, 그 이면에는 비공개된 정보, 막대한 비용, 정치적 고려 등 많은 문제가 숨어있다. 트렌드에 따라 단순히 LLM 서비스를 사용하는 것도 중요하지만, 그에 앞서 LLM 서비스 이면의 복합적인 구조를 이해하는 것이 중요하다. 유행하는 트렌드 아이템으로서 바라보는 것을 넘어서, 내가 어떤 LLM을 사용하고 있는지에 대한 이해와, LLM과 데이터를 어디까지 신뢰할 수 있는지에 대해 생각해보고, 자신의 기준을 세워보는 것이 필요하다.