Jerry's Log

LLM

contents

**거대 언어 모델(Large Language Model, LLM)**은 딥러닝 기술과 방대한 데이터 세트를 사용하여 새로운 콘텐츠를 이해, 요약, 생성 및 예측하는 인공지능 알고리즘의 한 유형입니다.

LLM을 사실이 저장된 데이터베이스가 아니라, 패턴 완성 엔진으로 생각하시면 됩니다. 인터넷에 있는 거의 모든 글을 읽고, 특정 문장 다음에 어떤 단어가 올 확률이 통계적으로 가장 높은지 학습한 것입니다.


1. 핵심 아키텍처: 트랜스포머 (Transformer) 🤖

현대 LLM을 가능하게 한 획기적인 발전은 2017년 구글 연구원들이 "Attention Is All You Need" 라는 논문에서 발표한 트랜스포머 아키텍처입니다.

이전 모델들(RNN, LSTM 등)은 텍스트를 순차적으로(단어 하나하나) 읽었기 때문에 속도가 느리고 오래전 문맥을 기억하지 못했습니다. 트랜스포머는 셀프 어텐션(Self-Attention) 메커니즘을 통해 이를 변화시켰습니다.

셀프 어텐션 메커니즘 (Self-Attention)

이를 통해 모델은 문장 내의 모든 단어를 동시에 보고 단어들이 서로 어떻게 연관되어 있는지 파악할 수 있습니다.

Transformer model architecture diagram 이미지


2. LLM이 만들어지는 과정 (3단계) 🏗️

ChatGPT나 Gemini 같은 모델을 만드는 데는 세 가지 뚜렷한 단계가 있습니다.

1단계: 사전 학습 (Pre-training) - 가장 비용이 많이 드는 단계

2단계: 지시 튜닝 (Instruction Tuning / SFT)

3단계: 정렬 (Alignment / RLHF)


3. 주요 기술 개념 ⚙️

토큰 (Tokens)

LLM은 단어를 읽지 않고 토큰을 읽습니다. 토큰은 전체 단어일 수도, 단어의 일부일 수도, 하나의 문자일 수도 있습니다.

컨텍스트 윈도우 (Context Window)

모델의 "단기 기억"입니다. 모델이 한 번에 처리할 수 있는 텍스트의 양(질문과 이전 답변 포함)의 한계입니다.

파라미터 (Parameters)

모델이 학습한 내용을 나타내는 신경망 내부의 변수(가중치)입니다.

온도 (Temperature)

모델 출력의 "무작위성"을 제어하는 설정입니다.


4. 능력과 한계

LLM이 잘하는 것 ✅

환각 문제 (Hallucination) 🤥

LLM의 가장 큰 약점은 환각입니다. LLM은 사실 데이터베이스가 아니라 확률 엔진이기 때문에, 통계적으로 그럴듯하게 들린다면 거짓 정보를 확신에 차서 말할 수 있습니다.


5. 떠오르는 기술들 🚀

환각이나 메모리 제한 같은 한계를 극복하기 위해 개발자들은 다음 기술들을 사용합니다.

요약

LLM은 "명령 기반" 컴퓨팅(컴퓨터에게 무엇을 할지 정확히 지시)에서 "의도 기반" 컴퓨팅(컴퓨터에게 원하는 것을 말하고, 컴퓨터가 방법을 알아내게 함)으로의 전환을 의미합니다.

references