본문 바로가기

ML-DL/LLM

(6)
Transformer Model [트랜스포머 모델] 정리 - [3] 이 글은 Transformer 에 대해 직관적으로 이해하고 이해한 바를 잊지 않기 위해 여러 글을 참고하여 작성 / 정리해둔 글입니다.  1. Transformer 의 주요 하이퍼파라미터1) 입력과 출력의 크기 [= 임베딩 크기, Embedding Size]모델이 학습할 단어 표현의 차원을 결정한다.임베딩 크기가 클수록 더 넓은 표현이 가능하지만 모델 복잡도와 메모리 사용량도 함께 증가한다.2) 인코더와 디코더의 층 [= 레이어 수, Num of Layers]층이 많을수록 모델이 복잡한 패턴을 학습할 수 있지만 과적합이 발생할 수 있다.BERT 나 GPT 모델에서는 12, 24, 48 레이어를 사용하는 경우가 많다.3) 어텐션 헤드의 수 [= Num of Attention Heads]멀티헤드 어테션 ㅅ레..
Transformer Model [트랜스포머 모델] 정리 - [2] 이 글은 Transformer 에 대해 직관적으로 이해하고 이해한 바를 잊지 않기 위해 여러 글을 참고하여 작성 / 정리해둔 글입니다. 1. 인코더의 셀프 어텐션 트랜스포머는 하이퍼파라미터인 num_layers 의 수만큼 인코더 층을 쌓는다. 논문에서는 6개의 인코더 층을 사용했다. 인코더를 하나의 층이라는 개념으로 생각한다면, 인코더 한 개의 층은 셀프 어텐션과 피드 포워드 신경망 총 2개의 서브층으로 나눠진다. 위의 그림에서멀티 헤드 셀프 어텐션 = 셀프 어텐션을 병렬적으로 사용포지션 와이즈 피드 포워드 신경망 = 피드 포워드 신경망 을 뜻한다. 2. 포지션-와이즈 피드 포워드 신경망 [Position-wise FFNN]1) 셀프 어텐션더보기어텐션 함수 :1. 주어진 쿼리에 대해 모든 키와 유사도를 ..
DPO [Direct Preference Optimization] 이란? 1. DPO ?LLM 에서 사람의 피드백을 반영하여 성능을 최적화하는 방법 이다. Preference Optimization 을 통해 모델이 사람의 선호도를 직접 반영하는 응답을 생성하도록 학습하는 기법이다. 기존의 강화 학습과는 다르며, RLHF [Reinforcement Learning with Human Feedback] 를 대체하거나 보완하는 목적으로 사용된다. 2. 학습 방법핵심 아이디어는 사람이 선호하는 응답을 모델이 더 잘 예측하도록 하는 것이다. 일반적으로 선호되는 응답 $x_{preferred}$ 과 그렇지 않은 응답 $x_{non-preferred}$ 을 모델이 비교하여 선호되는 응답을 더 높은 확률로 예측할 수 있도록 모델을 업데이트 한다. 1. 특정 질문에 대해 여러 응답을 생성한 ..
Transformer Model [트랜스포머 모델] 정리 - [1] 이 글은 Transformer 에 대해 직관적으로 이해하고 이해한 바를 잊지 않기 위해 여러 글을 참고하여 작성 / 정리해둔 글입니다.  1. Transformer 배경기존 seq2seq 모델의 한계 [입력 시퀀스를 벡터로 압축하는 과정에서 정보 일부 손실 등] 를 보정하기 위해 attention 이 나왔다. 그렇다면 attention을 보정하기 위해서 추가로 사용하는 용도가 아니라 attention 만으로 인코더와 디코더를 만들어본다면?  2. Transformer 란?트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다.  트랜스포머는 RNN을 사용하지 않지만 인코더-디코더 구조를 유지하고 있다. 이전 seq2seq 구조에서는 인코더와 디코더에서 각..
Attention Mechanism [어텐션 메커니즘] 정리 이 글은 Attention 에 대해 직관적으로 이해하고 이해한 바를 잊지 않기 위해 여러 글을 참고하여 작성 / 정리해둔 글입니다. 1. Attention 배경더보기Seq2Seq? RNN은 출력이 바로 이전 입력까지만 고려해서 정확도가 떨어진다. 전체 입력 문장을 고려하지 않고 다음 문장을 생성하기 때문이다. 그래서 등장하게된 것이 seq2seq. Seq2Seq Network [Encoder Decoder Network] 는 두 개의 RNN [1D CNN도 가능] 으로 구성된 모델이다.  1) Encoder 는 입력 시퀀스를 읽고 단일 벡터[Context Vector]를 출력한다.  2) Decoder 는 이 Context Vector를 읽어 출력 시퀀스를 생성한다. d출처 : https://jalamm..
Retrieval-Augmented Generation : RAG 란 ? RAG의 중요성이 대두되는 만큼 RAG가 무엇이고, 그 플로우를 정리해보려고 한다. 1. RAG란?RAG 란 Retrieval-Augmented Generation으로 번역하자면 검색증강생성 으로서,LLM의 모델들이 가지고 있는 문제들을 개선하기 위한 기법이다. RAG 가 어떤 문제를 해결하는지 알기 위해서 먼저 LLM을 가볍게 살펴보고자 한다. 2. LLMLLM 은 Large Language Model 로, 거대 언어 모델을 말한다.거대하다를 정의하는 것에 있어서는 여러 의견이 있지만 이 페이지 를 기준으로 얘기해보자면,    1. 개인이 감당할 수 없는 사이즈   2. 개인의 접근이 어려운 데이터   3. 추론 능력의 여부 를 가진 모델을 LLM이라고 부를 수 있다. 거대 언어 모델 (Large La..