학습 데이터 고갈 코앞…AI가 만든 데이터를 AI가 학습한다면?
AI가 만든 데이터로 학습한 모델들의 산출물에는 오류가 많은 것으로 나타났다. (사진=이디오그램)
대형언어모델(LLM)이 생성형 인공지능(AI) 시대를 앞당기면서 학습 데이터에 대한 중요성도 더욱 커지고 있다. 몇 년 뒤 AI가 학습할 데이터 재고가 모두 소진될 것이라는 관측이 나오면서 AI 개발이 둔화될 가능성이 높다는 우려도 나온다. AI가 만들어 낸 합성데이터(Synthetic Data)가 대안이 될 수 있을까.
미국 비영리 AI리서치기관인 에포크AI(Epoch AI)가 내놓은 연구 결과에 따르면 사람이 만든 고품질 언어 데이터의 재고는 2026년 이전에 고갈될 것으로 예측된다. 각 기업들의 모델 크기와 학습량이 많아지며 데이터 소진 속도는 더욱 빨라질 전망이다.
이에 …
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."