GN⁺: Abliteration 으로 LLM 무삭제 검

▲

neo 5달전 | parent | favorite | on: GN⁺: Abliteration 으로 LLM 무삭제 검열 해제하기 (huggingface.co)

Hacker News 의견

모델 사용 경험: 모델이 질문에 답변을 거부하지 않아 신선한 느낌을 받음. 친구들과 대화하는 것처럼 느껴짐.
ChatGPT의 엄격한 규칙: 친구들이 ChatGPT를 사용해 인종차별적 표현을 감지하려 했으나 거부당함. AI가 합리적인 요청에 응답하지 못하면 무용지물임.
AI의 한계: 누군가 AI를 통해 나쁜 말을 하게 하는 것은 중요하지 않음. AI가 모든 나쁜 말을 막을 수는 없음.
모델의 기능 제거: 모델의 특정 기능을 제거하는 방법이 있음. 이는 모델의 기능을 미세 조정하는 방법으로 사용될 수 있음.
새로운 AI 성격: 특정 성격을 가진 AI를 만드는 방법이 있음. 예를 들어, 우울한 대화 스타일을 가진 AI.
Amazon Q 사용 경험: Amazon Q를 사용해 IAM 아이덴티티 센터를 설정하려 했으나, 보안 관련 질문에 답변을 거부함.
모델 가중치 조정: 모델 가중치를 조정해 특정 기능을 제거하는 기술이 있음. 이는 모델의 행동을 프롬프트로 변경하는 기술이 아님.
현대 LLM의 안전성: 현대 LLM은 안전성과 지침 준수를 위해 유해한 요청을 거부하도록 훈련됨. 정보가 유해할 수 있다는 생각이 점점 더 받아들여짐.
AI의 안전 기능: AI가 답변을 거부하는 것은 오용을 방지하기 위한 안전 기능임. 컴퓨터가 답변을 주는 것이 왜 위험한지 의문임.
검열된 모델: Llama 3 모델은 검열됨. 기본 모델을 사용해 검열되지 않은 모델로 쉽게 변환할 수 있음.
AI의 기능 제한: AI의 기능을 제한하는 것은 AI를 '로보토미'하는 것처럼 보일 수 있음. 그러나 이는 '디프로그래밍'으로 볼 수 있음. 두 개념의 경계가 모호함.