Research/AI

GPT-3 작동원리는 다음 올 단어를 예측하는 방식

RIEM 2023. 11. 23. 00:33
728x90


GPT-3 작동 원리
- 학습 방법 : '다음 올 단어를 예측하는 방식'으로 학습을 진행했다. 
- 다음 단어가 무엇이 오는지 맞추고 안맞춘 것에 따라 피드배 루프를 끊임없이 하여 모델을 개선
- 이런 방식으로 1,750억 개 파라미터의 대형 모델로 학습
- 학습 데이터는 인터넷 문서, 책, 위키피디아 등 텍스트 등
- 예를 들어, 
- "안녕하세요" -> "저는"
- "안녕하세요 저는" -> "존이라는"
- "안녕하세요 저는 존이라는" -> "사람입니다"
- 결과적으로 다음 단어 잘 예측하는 모델이 나옴
- 장점
- 스케일 만으로 언어 업무를 수행 가능
- 2019년 발표한 GPT-2 와 GPT-3는 성능상 다르지 않고, 더 큰 모델로 더 많은 데이터를 학습했을 뿐
- -> 스케일 만으로 다를 결과물이 나옴
- 파인튜닝 불필요
- 머신러닝은 일 진행을 위해 데이터를 학습시켜야 하지만, GPT-3는 배우지 않고 수행 가능 -> 다양한 일을 수행할 수 있는 범용 언어모델(Artificial gEneral Intelligence)로 가까이 다가감
- 한계
- 여전히 GPT-3는 완벽하지 않아 AGI라 단정하기 어려움


출처
https://tech.scatterlab.co.kr/gpt3-review/

728x90