GN⁺: Anthropic, Computer Use 기

▲

neo 1달전 | parent | favorite | on: GN⁺: Anthropic, Computer Use 기능과 Claude 3.5 Sonnet/Haiku 모델 공개(anthropic.com)

Hacker News 의견

Sonnet이 aider의 코드 편집 리더보드에서 84.2%로 1위를 차지함. "architect" 모드를 사용하면 SOTA를 85.7%로 설정함. DeepSeek을 "editor" 모델로 사용함
- Sonnet이 더 까다로운 리팩토링 벤치마크에서도 92.1%로 SOTA를 기록함
Claude 3.5 Opus가 더 이상 Anthropic의 공식 문서에 언급되지 않음. 이는 출시가 지연되었거나 취소되었음을 시사함
AI SaaS 제품을 개발하는 사람으로서, API 통합이 AI 자동화의 대부분을 해결할 것이라고 생각했으나, 실제로는 많은 소프트웨어가 사람과 직접 인터페이스함을 깨달음
- 예를 들어, 의사인 매형은 Windows에서 MFC 폼을 사용하는 맞춤형 소프트웨어를 사용하고, 회계사는 Cantax라는 강력한 소프트웨어를 사용함
- SaaS 공간에 있으면 모든 사람이 클라이언트-서버 백엔드 API를 가져야 한다고 믿게 되지만, 실제로는 그렇지 않음
컴퓨터 사용 능력이 매우 인상적임
- 이는 단순히 컴퓨터를 도구로 사용하는 에이전트가 아니라, 목표를 설정하면 이를 달성하기 위해 컴퓨터와 브라우저를 활용하는 자율적 추론 에이전트임
- OpenAI GPT-o1을 능가할 가능성이 있음
Anthropic의 AI 안전성에 대한 초점이 흥미로움. AI가 컴퓨터와 브라우저를 사용하여 요청된 목표를 달성할 수 있는 능력을 가짐
Claude가 지난 8개월 동안 ChatGPT보다 우수했지만, 사용자 기반은 적음
Sonnet과 Opus의 차이가 명확하지 않음. Anthropic 웹사이트에서는 Opus가 가장 발전된 모델이라고 하지만, 다른 부분에서는 Sonnet이 가장 빠르고 발전된 모델이라고 함
- 수동 테스트 결과 Opus가 약간 더 나은 응답을 제공한다고 느꼈으나, 확신할 수 없음
Claude를 사용한 코딩 데모가 더 많은 논의가 필요함
- 진정한 최종 사용자 프로그래밍과 제품 관리자 프로그래밍이 곧 도래할 가능성이 있음
새로운 API로 훈련 중 재미있는 일이 발생함
- Claude가 장시간의 화면 녹화를 중지하여 모든 영상을 잃어버리거나, 코딩 데모 중에 Yellowstone 국립공원의 사진을 보는 등의 일이 있었음