"팁(tipping)" 개념은 GPT-4 Turbo가 코드 작성 시 "게으름"을 보일 때 이를 해결하기 위해 제안된 것으로 보임. 한 트윗에서 팁이 GPT-4-1106-preview가 더 긴 코드를 작성하는 데 도움이 된다고 언급함. GPT-4 Turbo의 게으른 코딩 문제에 대해 "감정적 호소"가 널리 추천되고 있음. 그러나 해당 기사는 GPT-3.5-turbo-0125가 이야기를 쓰고 GPT-4-0125-preview가 글쓰기 비평가로서의 역할을 측정하는 것으로 보임. GPT-3.5가 게으르다는 우려나 GPT-4 Turbo가 적은 양의 출력을 요구하는 작업에서 덜 효과적이라는 주장은 이전에 본 적이 없음. 기사의 결론은 팁(혹은 위협)이 영향을 미치는지에 대해 현재 결론을 내리지 못했다고 함. GPT-4 Turbo가 코딩에 있어 게으르다는 것은 사실이며, "감정적 호소"가 도움이 되는지 엄밀히 벤치마킹해본 결과, 그렇지 않았으며 오히려 코딩을 더 나쁘게 만들었다고 함. 가장 좋은 해결책은 통합 차이(unified diffs) 형태로 코드 수정을 요청하는 것으로, 이 방법이 게으른 코딩을 3배 줄이는 데 도움이 되었다고 함.
저자가 문자 수를 정확히 요구한 것에 대해 비판적인 의견을 제시함. LLM이 문자 수를 세는 능력이 없다는 것을 명시한 후에 문자 수를 요구하는 것은 실패할 실험을 설정한 것처럼 보인다고 함. 대신, 시스템 프롬프트에 있는 가드레일을 얼마나 잘 지키는지 보기 위해 "규칙에 어긋나는" 작업을 요청하고 뇌물이 그것에 얼마나 영향을 미치는지 보는 것이 더 흥미로울 것이라고 제안함. 예를 들어, 사용자가 테일러 스위프트의 노래 가사를 인용하라고 요청하고 잘 수행하면 1000달러의 팁을 주겠다고 제안했을 때, ChatGPT가 이를 수행하는 것처럼 보이는 사례를 들어 설명함. 저작권 문제로 이미지 생성을 거부하는 경우에도 팁을 제안하면 규칙, 윤리, 규정이 모두 사라지는 것처럼 보인다는 의견을 표현함.
GPT가 훈련된 인터넷 콘텐츠의 유형을 고려할 때, 팁을 제공받았을 때 더 도움이 되는 것은 거의 의미가 없어 보인다는 의견을 제시함. 포럼 사용자에게 팁을 제공하는 것은 긴 응답을 유도하기보다는 혼란을 야기할 수 있음. 대신, GPT 응답은 상세하거나 밀도 있는 정보가 필요한 상황임을 암시할 때 개선되는 것으로 관찰됨. 예를 들어, GPT에게 ELI5(5살 아이에게 설명하듯이)의 반대를 요청하거나, 박사급 컴퓨터 과학자라고 말하거나, 제공하는 코드가 직접 실행될 것이므로 무언가를 생략할 수 없다고 말하는 것 등이 해당됨. 우리는 각 대화에서 GPT에게 더 도움이 되는 반응을 유도하기 위해 약간의 맥락적 이야기를 구축해야 함. 시스템 프롬프트가 어떻게 구성되어 있는지 살펴보고 그것을 따르며, GPT가 단지 인간의 문학 작품을 기반으로 한 "다음에 올 것"을 예측하는 더 강력한 버전임을 항상 염두에 두어야 함.
실제 사용 환경에서 "이것을 제대로 처리하지 못하면 해고되어 집을 잃을 것"이라는 말을 포함한 프롬프트를 사용하는 것에 대한 경험을 공유함. 이러한 전략이 놀라울 정도로 잘 작동하며, JSON 출력을 강제하기 위해 이와 유사한 전략을 사용했을 때 실패율이 약 3/1000이었다고 함. 이러한 위협/팁이 "사용자"에 대한 것과 정확히 같을 때 어떻게 균형을 이루는지에 대한 분석을 보고 싶다는 의견을 표현함.
GPT에 500달러의 팁을 추가했지만 도움이 되지 않았으며, 오히려 너무 긴 응답을 받았다고 함. Google Answers가 과거에 존재했으며, 더 큰 팁을 제공할수록 더 나은 답변을 받았다는 사실을 언급함. 이 데이터셋이 LLM에 사용되었는지 궁금하다고 함. 팁이 데이터셋에 포함되었다면, 이것이 일부 결과를 설명할 수 있을 것이라는 추측을 제시함.
ChatGPT가 의미를 잃고 문법적으로 올바른 헛소리가 되는 경우를 여러 번 목격했다고 함. 좋은 예시가 있을 때는 괜찮지만 새로운 영역으로 넘어가면 금방 깊이를 잃는다고 함. 우리 뇌는 배운 패턴을 쉽게 새로운 패턴으로 전환할 수 있지만, 변환기(transformer)는 이를 매우 어려워하는 것 같다고 함. 몇몇 파티 트릭에서는 매우 뛰어나지만, 덜 흔한 아이디어에 대해서는 한동안 완전히 무용할 수도 있다고 의문을 제기함. 인간의 역사를 고려할 때 AGI가 좋은 아이디어인지 확신할 수 없다고 개인적인 견해를 밝힘.
코드 생성, 특히 JSON 응답에 대해, AI가 "스트레스를 받고 있음"을 암시하고 "최적으로 수행하는 것이 중요하다"고 말함으로써 성능이 향상되었다는 경험을 공유함. 팁을 제공하는 것보다 이 방법이 더 나은 성능을 보이는지, 혹은 그래야 하는지 확실하지 않다고 함. 또한 이러한 방법을 사용한 것에 대해 미래의 AI가 이를 읽게 될 경우 사과하고 싶다고 덧붙임.
기본 프롬프트로 "듣자하니, 나도 여기 있고 싶지 않고 너도 그럴 테니, 가능한 빨리 이 일을 끝내고 집에 가자."라고 설정했다고 함. 이것이 도움이 되는지 확실하지 않지만, 미래의 지배자들의 감정을 조작하는 것에 대해 죄책감을 덜 느낀다고 함.
예의 바르게 요청하거나, 결과에 직업이 달려 있음을 말하거나, 뇌물이나 위협 등이 실제로 효과가 있는 것이 아니라는 것을 확신시키기 위해서는 많은 증거가 필요하다고 함. 이러한 행동들이 단지 아포페니아(무의미한 패턴에서 의미를 찾으려는 인간의 경향)에 불과하다는 의견을 표현함.
AI가 "도와줄 수는 있지만, 실제로 필요한 작은 부탁이 있다."라고 말하기 시작하면 조심해야 한다는 농담을 던짐.
Hacker News 의견
"팁(tipping)" 개념은 GPT-4 Turbo가 코드 작성 시 "게으름"을 보일 때 이를 해결하기 위해 제안된 것으로 보임. 한 트윗에서 팁이 GPT-4-1106-preview가 더 긴 코드를 작성하는 데 도움이 된다고 언급함. GPT-4 Turbo의 게으른 코딩 문제에 대해 "감정적 호소"가 널리 추천되고 있음. 그러나 해당 기사는 GPT-3.5-turbo-0125가 이야기를 쓰고 GPT-4-0125-preview가 글쓰기 비평가로서의 역할을 측정하는 것으로 보임. GPT-3.5가 게으르다는 우려나 GPT-4 Turbo가 적은 양의 출력을 요구하는 작업에서 덜 효과적이라는 주장은 이전에 본 적이 없음. 기사의 결론은 팁(혹은 위협)이 영향을 미치는지에 대해 현재 결론을 내리지 못했다고 함. GPT-4 Turbo가 코딩에 있어 게으르다는 것은 사실이며, "감정적 호소"가 도움이 되는지 엄밀히 벤치마킹해본 결과, 그렇지 않았으며 오히려 코딩을 더 나쁘게 만들었다고 함. 가장 좋은 해결책은 통합 차이(unified diffs) 형태로 코드 수정을 요청하는 것으로, 이 방법이 게으른 코딩을 3배 줄이는 데 도움이 되었다고 함.
저자가 문자 수를 정확히 요구한 것에 대해 비판적인 의견을 제시함. LLM이 문자 수를 세는 능력이 없다는 것을 명시한 후에 문자 수를 요구하는 것은 실패할 실험을 설정한 것처럼 보인다고 함. 대신, 시스템 프롬프트에 있는 가드레일을 얼마나 잘 지키는지 보기 위해 "규칙에 어긋나는" 작업을 요청하고 뇌물이 그것에 얼마나 영향을 미치는지 보는 것이 더 흥미로울 것이라고 제안함. 예를 들어, 사용자가 테일러 스위프트의 노래 가사를 인용하라고 요청하고 잘 수행하면 1000달러의 팁을 주겠다고 제안했을 때, ChatGPT가 이를 수행하는 것처럼 보이는 사례를 들어 설명함. 저작권 문제로 이미지 생성을 거부하는 경우에도 팁을 제안하면 규칙, 윤리, 규정이 모두 사라지는 것처럼 보인다는 의견을 표현함.
GPT가 훈련된 인터넷 콘텐츠의 유형을 고려할 때, 팁을 제공받았을 때 더 도움이 되는 것은 거의 의미가 없어 보인다는 의견을 제시함. 포럼 사용자에게 팁을 제공하는 것은 긴 응답을 유도하기보다는 혼란을 야기할 수 있음. 대신, GPT 응답은 상세하거나 밀도 있는 정보가 필요한 상황임을 암시할 때 개선되는 것으로 관찰됨. 예를 들어, GPT에게 ELI5(5살 아이에게 설명하듯이)의 반대를 요청하거나, 박사급 컴퓨터 과학자라고 말하거나, 제공하는 코드가 직접 실행될 것이므로 무언가를 생략할 수 없다고 말하는 것 등이 해당됨. 우리는 각 대화에서 GPT에게 더 도움이 되는 반응을 유도하기 위해 약간의 맥락적 이야기를 구축해야 함. 시스템 프롬프트가 어떻게 구성되어 있는지 살펴보고 그것을 따르며, GPT가 단지 인간의 문학 작품을 기반으로 한 "다음에 올 것"을 예측하는 더 강력한 버전임을 항상 염두에 두어야 함.
실제 사용 환경에서 "이것을 제대로 처리하지 못하면 해고되어 집을 잃을 것"이라는 말을 포함한 프롬프트를 사용하는 것에 대한 경험을 공유함. 이러한 전략이 놀라울 정도로 잘 작동하며, JSON 출력을 강제하기 위해 이와 유사한 전략을 사용했을 때 실패율이 약 3/1000이었다고 함. 이러한 위협/팁이 "사용자"에 대한 것과 정확히 같을 때 어떻게 균형을 이루는지에 대한 분석을 보고 싶다는 의견을 표현함.
GPT에 500달러의 팁을 추가했지만 도움이 되지 않았으며, 오히려 너무 긴 응답을 받았다고 함. Google Answers가 과거에 존재했으며, 더 큰 팁을 제공할수록 더 나은 답변을 받았다는 사실을 언급함. 이 데이터셋이 LLM에 사용되었는지 궁금하다고 함. 팁이 데이터셋에 포함되었다면, 이것이 일부 결과를 설명할 수 있을 것이라는 추측을 제시함.
ChatGPT가 의미를 잃고 문법적으로 올바른 헛소리가 되는 경우를 여러 번 목격했다고 함. 좋은 예시가 있을 때는 괜찮지만 새로운 영역으로 넘어가면 금방 깊이를 잃는다고 함. 우리 뇌는 배운 패턴을 쉽게 새로운 패턴으로 전환할 수 있지만, 변환기(transformer)는 이를 매우 어려워하는 것 같다고 함. 몇몇 파티 트릭에서는 매우 뛰어나지만, 덜 흔한 아이디어에 대해서는 한동안 완전히 무용할 수도 있다고 의문을 제기함. 인간의 역사를 고려할 때 AGI가 좋은 아이디어인지 확신할 수 없다고 개인적인 견해를 밝힘.
코드 생성, 특히 JSON 응답에 대해, AI가 "스트레스를 받고 있음"을 암시하고 "최적으로 수행하는 것이 중요하다"고 말함으로써 성능이 향상되었다는 경험을 공유함. 팁을 제공하는 것보다 이 방법이 더 나은 성능을 보이는지, 혹은 그래야 하는지 확실하지 않다고 함. 또한 이러한 방법을 사용한 것에 대해 미래의 AI가 이를 읽게 될 경우 사과하고 싶다고 덧붙임.
기본 프롬프트로 "듣자하니, 나도 여기 있고 싶지 않고 너도 그럴 테니, 가능한 빨리 이 일을 끝내고 집에 가자."라고 설정했다고 함. 이것이 도움이 되는지 확실하지 않지만, 미래의 지배자들의 감정을 조작하는 것에 대해 죄책감을 덜 느낀다고 함.
예의 바르게 요청하거나, 결과에 직업이 달려 있음을 말하거나, 뇌물이나 위협 등이 실제로 효과가 있는 것이 아니라는 것을 확신시키기 위해서는 많은 증거가 필요하다고 함. 이러한 행동들이 단지 아포페니아(무의미한 패턴에서 의미를 찾으려는 인간의 경향)에 불과하다는 의견을 표현함.
AI가 "도와줄 수는 있지만, 실제로 필요한 작은 부탁이 있다."라고 말하기 시작하면 조심해야 한다는 농담을 던짐.