3-1 서지현 LLM Pine-Tuning

LLM 이란?

대규모 언어모델(LLM, Large Language Model)이란 대규모 데이터 세트에서 얻은 지식을 기반으로 텍스트와 다양한 콘텐츠를 인식하고 요약, 번역, 예측, 생성할 수 있는 딥 러닝 알고리즘입니다.

사용되는 곳?

대규모 언어 모델은 번역, 챗봇, AI 비서와 같은 자연어 처리 애플리케이션을 가속화하는 일은 물론, 헬스케어, 소프트웨어 개발과 기타 다른 여러 분야에 사용됩니다.
대규모 언어모델이 활용될 수 있는 무수한 사례 중에는 다음과 같은 몇 가지 예가 있습니다!
- 소매업체와 기타 서비스 제공업체는 대규모 언어 모델을 사용해 챗봇, AI 비서 등으로 고객 서비스를 향상시킬 수 있습니다.
- 검색 엔진은 대규모 언어 모델을 사용해 사람처럼 보다 직접적으로 응답할 수 있습니다.
- 생명과학 연구원은 단백질, 분자, DNA, RNA를 이해하기 위해 대규모 언어 모델을 훈련시킬 수 있습니다.
- 개발자는 대규모 언어 모델로 소프트웨어를 작성하고 로봇에게 물리적인 작업을 가르칠 수 있습니다.
- 법률 팀은 법적 의역이나 서류 작성 등에 대규모 언어 모델의 도움을 받을 수 있습니다.

LLM의 작동 방식은?

대규모 언어 모델(LLM)은 방대한 양의 데이터를 이용해 학습합니다. 명칭에서 알 수 있듯이 그 핵심은 훈련된 데이터 세트의 크기입니다. 하지만 “대규모”라는 정의는 AI의 성장과 함께 계속 확대되고 있습니다. 이제 일반적으로 대규모 언어 모델은 오랜 기간 동안 인터넷에 작성된 거의 모든 것을 망라할 만큼 엄청나게 큰 규모의 데이터 세트에서 훈련됩니다. 그런 엄청난 양의 텍스트가 비지도 학습(unsupervised learning)을 통해 AI 알고리즘에 투입되는 데, 이때 모델에는 진행할 작업에 대한 분명한 지침 없이 데이터 세트가 주어지게 됩니다. 이런 방법으로 대규모 언어 모델은 단어뿐만 아니라 단어들 간의 관계와 그 안의 함축된 내용을 학습합니다. 예를 들어, 문맥에 따라 “bark”라는 단어의 서로 다른 두 가지 뜻을 구별하는 것을 배우게 되죠. 마치 언어에 통달한 사람이 문장이나 단락에서 다음 문맥에 나올 수 있는 내용이나, 심지어 다음 단어나 개념 자체를 떠올릴 수 있는 것과 마찬가지로, 대규모 언어 모델은 습득한 지식을 사용해 내용을 예측하거나 생성하기도 합니다.

파인튜닝(Fine-tuning)은 머신 러닝에서 이미 학습된 모델을 새로운 데이터셋에 대해 재학습하는 기술입니다. 이 기술은 이미지 분류, 자연어 처리 등 다양한 분야에서 사용되고 있습니다.

파인튜닝 단계
종류

1번째

학습된 모델 선정

파인튜닝을 하기 위해서는 먼저 미리 학습된 모델을 선택해야 합니다. 대부분의 머신 러닝 프레임워크는 이미 학습된 모델을 제공하며, 이러한 모델을 전이학습(Transfer Learning) 모델이라고도 부릅니다. 전이학습 모델은 대부분 대규모 데이터셋에서 사전 학습된 모델입니다. 따라서 새로운 데이터셋을 학습시키기 위해서는 전이학습 모델의 일부 레이어를 재사용하고, 새로운 레이어를 추가하여 재학습하는 방식으로 진행합니다.

2번째

데이터 준비

모델을 fine-tuning하기 위한 특정 데이터셋을 준비합니다. 이 데이터는 특정 작업이나 도메인에 관련된 정보를 포함해야 합니다.

3번째

모델 수정

때로는 모델의 마지막 몇 층을 특정 작업에 맞게 수정해야 할 수도 있습니다. 예를 들어, 분류 작업에는 출력층을 해당 분류 작업의 클래스 수에 맞게 조정해야 할 수 있습니다.

4번째

추가 학습

사전 훈련된 모델에 작업 특정 데이터를 사용하여 추가 학습을 진행합니다. 이때, 학습률과 같은 하이퍼파라미터는 종종 매우 낮게 설정되어, 모델이 새로운 데이터에 과적합되지 않도록 합니다.
*과적합*
과적합(Overfitting)은 머신러닝과 인공지능 분야에서 매우 중요한 개념 중 하나입니다. 모델이 학습 데이터에 너무 잘 맞춰져서, 새로운 데이터나 검증 데이터에 대해서는 오히려 성능이 떨어지는 현상을 말합니다. 즉, 학습 데이터의 특성, 잡음, 심지어는 무작위 변동성까지도 모델이 학습해버려서, 학습 데이터에는 높은 정확도를 보이지만 일반화된 데이터에 대해서는 성능이 좋지 않게 되는 것입니다.

Full Fine-tuning

Full Fine-tuning은 사전 훈련된 모델의 구조와 가중치를 유지하면서, 모델 전체를 대상으로 추가 학습을 진행하는 과정입니다. 이 방식에서는 모델의 모든 층이 새로운 데이터셋에 맞게 학습되며, 이를 통해 모델이 특정 작업이나 도메인에 더 잘 적응할 수 있도록 합니다. Full Fine-tuning은 사전 훈련된 모델이 가진 일반적인 지식을 최대한 활용하면서도, 특정 작업에 대한 성능을 최적화하고자 할 때 사용됩니다.

Repurposing

Repurposing은 사전 훈련된 모델을 새로운 작업이나 도메인에 맞게 재사용하는 과정이지만, 모델의 일부만을 수정하거나 추가적인 구조를 도입하는 방식입니다. 이 방식은 기존 모델의 출력이나 중간 층을 새로운 작업에 맞게 변형하거나, 특정 부분만을 추출하여 새로운 문제 해결에 활용합니다. Repurposing은 모델의 일부분만을 재활용하거나, 모델을 완전히 새로운 작업에 적용하고자 할 때 유용합니다.

차이점

Full Fine-tuning, Repurposing 차이점 요약

* 목적과 범위: Full Fine-tuning은 모델 전체를 특정 작업에 맞게 조정하여 성능을 최적화하는 것에 중점을 둡니다. 반면, Repurposing은 모델의 일부를 새로운 작업에 맞게 재활용하거나 변형하여 다양한 문제를 해결할 수 있는 능력을 부여합니다.
* 학습 방식: Full Fine-tuning은 모델 전체에 대한 추가 학습을 진행합니다. Repurposing은 기존 모델의 일부만을 사용하거나 수정하여 새로운 작업을 수행할 수 있도록 합니다.