7P by neo 8달전 | favorite | 댓글 1개
  • AI2에서 OLMo 7B 모델을 공개함. 이는 사전 학습 데이터와 학습 코드를 함께 공개한 진정한 의미의 오픈 소스 대규모 언어 모델임.

    • 연구자와 개발자가 최고의 오픈 모델을 사용하여 집단적으로 언어 모델 과학을 발전시킬 수 있게 함.
    • Meta의 AI 과학자 Yann LeCun은 오픈 소스 커뮤니티가 AI의 미래를 가장 빠르고 효과적으로 구축할 수 있다고 언급함.
  • OLMo 프레임워크의 주요 특징:

    • 완전한 사전 학습 데이터: AI2의 Dolma 데이터셋을 사용하며, 학습 데이터를 생성하는 코드도 포함됨.
    • 학습 코드와 모델 가중치: 7B 스케일의 4가지 모델 변종에 대한 전체 모델 가중치와 추론 코드, 학습 지표, 학습 로그 등을 제공함.
    • 평가: Catwalk 프로젝트 아래 500개 이상의 체크포인트와 평가 코드 등 개발에 사용된 평가 도구를 공개함.
  • OLMo를 통해 AI 연구자와 개발자는 다음과 같은 경험을 할 수 있음:

    • 더 정확한 분석: 학습 데이터에 대한 완전한 통찰력을 바탕으로 더 빠르게 작업할 수 있음.
    • 탄소 배출 감소: 전체 학습 및 평가 생태계를 공개함으로써 중복 개발을 줄일 수 있음.
    • 지속적인 결과: 모델과 데이터셋을 공개하여 이전 모델에서 배우고 구축할 수 있게 함.
  • AMD, CSC(Lumi Supercomputer), University of Washington, Databricks 등과의 협력을 통해 OLMo 개발이 가능했음.

GN⁺의 의견

  • AI 모델의 투명성 향상을 위해 학습 데이터와 코드를 공개한 것은 큰 의미가 있어 보임. 하지만 데이터 편향성 등의 문제가 있을 수 있으므로 이에 대한 검토도 필요할 것 같음.
  • 오픈소스 언어모델 생태계 활성화로 기술 발전이 가속화될 것으로 보임. 다만 대형 IT 기업들의 폐쇄형 AI 모델과의 경쟁에서 어떤 성과를 낼 수 있을지 지켜볼 필요가 있음.
  • AI 개발에 필요한 막대한 컴퓨팅 자원 확보를 위해 다양한 기관과의 협력이 매우 중요해 보임. 학계-산업계 간 협력 모델로서 좋은 본보기가 될 것 같음.
  • OLMo를 통해 언어모델의 작동 원리에 대한 과학적 연구가 활발해질 것으로 기대됨. 이는 보다 안전하고 신뢰할 수 있는 AI 개발로 이어질 수 있을 것임.
Hacker News 의견
  • LLM 사용 시 저자에게 어떤 용도인지 알려야 함. 라이선스에 명시된 내용임.
  • 파생물을 만들 경우 AI2에 Derivative Impact Report를 제출하거나 유사한 정보를 서면으로 제공해야 함. AI2는 이 정보를 대중에게 공개할 수 있음.
  • 파생물의 사용 목적에 대해 투명하게 공개해야 함.
  • Derivative Impact Report는 선의의 공개를 처벌하기 위한 것이 아님. 관련 소송을 제기할 경우 계약이 즉시 종료됨.
  • 진정한 오픈소스 모델 중 하나임. 대부분은 가중치만 공개하는 반면 이는 end-to-end로 개방적임.
  • Mistral 7b와의 비교가 언급되지 않은 점이 의외임.
  • "The Pile"은 학습 데이터에 포함되지 않은 듯함. 법적으로 다른 "오픈" LLM들보다 건전할 수 있음.
  • 데이터셋에 적용된 위험 분류의 실제 의미는 무엇일까? 라이선스 페이지에서 설명이 부족함. 학습 데이터셋으로 사용하기에 라이선스 측면에서 호환되지 않을 위험을 의미하는 것일까?
  • 작은 크기에서도 놀라울 정도로 빠른 속도를 보임.
  • AMD GPU로 성공적으로 학습된 주목할 만한 첫 LLM 중 하나일까? 과정이 얼마나 원활했는지, 어려움은 없었는지 궁금함.
  • 이 모델과 유사한 모델들에서 추론 시 "반복 토큰" 문제가 발생함. 맥락 윈도우가 중간에서 길 때 자주 발생.
  • 학습 중에 일종의 지역 최소값에 빠지는 것 같음. 온도가 영향을 주는 것 같지만 완전히 해결하진 못함.
  • 블로그 포스트에 비교 표가 없는 것이 아쉬움.
  • 개인적으로 가장 흥미로운 LLM임. 검색을 대체하고 심지어 연구를 수행하여 최종 답변을 제공할 수 있는 강력한 도구임. OpenAI, Anthropic 등의 폐쇄형 모델은 감사할 수 없음.
  • 실제 LLM에 편향이 주입된 사례가 있음 (예: Google Gemini의 비밀 메타 프롬프트로 인한 역사적으로 부정확한 이미지 생성)
  • AI2의 접근 방식이 마음에 듦. 가중치뿐 아니라 학습 소스 코드, 데이터, 평가 도구 등을 모두 아파치 라이선스로 공유함.
  • Llama 같은 오픈 가중치 모델이 OpenAI 등의 폐쇄형 모델을 따라잡고 있음. OLMo 같은 진정한 오픈 모델도 계속 발전하기를 바람.
  • 오픈소스 AI 개발을 규제로 막지 않기를 희망함. 미래에 사회의 언론 수단이 될 수 있어 규제는 표현의 자유 제한과 비슷함. 경쟁 압력 감소는 혁신을 해칠 것임.
  • 2개월 전 글임.