학습데이터 = 소스코드
이번 라마3.1 모델은 오픈소스로 공개했습니다. 하지만, 학습데이터는 비공개입니다. AI, 딥러닝에서는 학습데이터가 '소스코드'이며, 모델은 앱(app) 같은 거죠. 그러므로, 사실상 라마는 오픈소스라고 할 수 없습니다. 그냥 무료 언어모델 앱을 출시한 것입니다.
메타는 라마 학습데이터를 공개할 가능성이 있는가? No.
라마 학습데이터는 텍스트만 15조개 토큰이고, 멀티모달 학습을 위해 이미지 비디오 오디오 데이터도 있을 텐데요, 이들 데이터의 상당 부분은 페이스북이나 인스타그램 등의 고객 데이터일 가능성이 있습니다. 그래서, 이를 공개하는 것은 사회적으로 큰 데이터 소유권, 저작권 이슈를 만들것이기에, 메타는 데이터 공개를 하고 싶어도 못할 것으로 예상됩니다.
라마는 오픈소스인가? No.
학습데이터 = 소스코드
이번 라마3.1 모델은 오픈소스로 공개했습니다. 하지만, 학습데이터는 비공개입니다. AI, 딥러닝에서는 학습데이터가 '소스코드'이며, 모델은 앱(app) 같은 거죠. 그러므로, 사실상 라마는 오픈소스라고 할 수 없습니다. 그냥 무료 언어모델 앱을 출시한 것입니다.
메타는 라마 학습데이터를 공개할 가능성이 있는가? No.
라마 학습데이터는 텍스트만 15조개 토큰이고, 멀티모달 학습을 위해 이미지 비디오 오디오 데이터도 있을 텐데요, 이들 데이터의 상당 부분은 페이스북이나 인스타그램 등의 고객 데이터일 가능성이 있습니다. 그래서, 이를 공개하는 것은 사회적으로 큰 데이터 소유권, 저작권 이슈를 만들것이기에, 메타는 데이터 공개를 하고 싶어도 못할 것으로 예상됩니다.