▲neo 8달전 | parent | favorite | on: GN⁺: SWE-agent, GitHub 이슈 해결률 12%의 자동 개발 에이전트(github.com/princeton-nlp)Hacker News 의견 버그 리포트에 대한 댓글: 데모는 행렬 연산에 대한 명확한 버그 리포트를 보여줌. 실제 버그 리포트는 대부분 "X를 클릭했는데 Y가 발생했다"는 식으로 모호함. 버그를 해결하는 어려움은 원인을 파악하는 것에 있음. LLMs가 간단한 결함을 수정할 수 있다는 것을 알지만, 이것이 무엇을 증명하는가에 대한 의문 제기. 논문을 자세히 살펴본 사람이 있는지, 문제들과 차이점이 어떤지 궁금함. 프로젝트에 대한 댓글: 매우 멋진 프로젝트라고 평가. 이전에 비슷한 실험을 해봤지만, 종종 혼돈스럽고 비용이 많이 드는 실패로 이어짐. swe-bench에서 12%의 성공률을 보였지만, 나머지 88%는 어떤가에 대한 질문. swe-bench가 해당 그룹에서 만든 것인지, "숙련된 인간 상한선" 점수를 측정해본 적이 있는지 궁금함. 임의로 선택한 swe-bench 작업들이 숙련된 인간에게도 "해결"하기 어려웠다는 경험 공유. 사용된 방법론에 대한 댓글: langchain 방법론을 사용한 것으로 보임. 몇 가지 프롬프트를 예로 들며 GitHub 링크 제공. AI와 버그 트래커에 대한 댓글: AI가 생성한 풀 리퀘스트가 인기를 얻으면 공개 버그 트래커의 종말을 예상. 버그가 사라지는 것이 아니라, 풀 리퀘스트 검토 비용 대비 프로젝트 이득이 큰 손실이 될 것이라는 의견. SWEbench 벤치마크에 대한 댓글: SWEbench 벤치마크가 오직 파이썬 코드 프로젝트만 포함하고 있어 모든 프로그래밍 언어와 프레임워크를 대표하지 않음. 더 일반적인 SWE 작업 평가 프레임워크를 JS, SQL, 파이썬 등을 위해 개발 중이라고 소개. 데모 비교에 대한 댓글: 데모가 Devin 프로젝트와 매우 유사하여 확인해봤다는 의견. 데모에 대한 신뢰성에 의문을 제기하며, 제3자의 평가를 듣고 싶어함. 리뷰 작업에 대한 댓글: AI가 제안한 수정 사항을 검토하는 데 실제 사람들에게 얼마나 많은 추가 작업이 발생했는지에 대한 질문. 유사 프로젝트에 대한 댓글: 비슷한 프로젝트를 진행 중이라고 소개하며 GitHub 링크 제공. 모델이 잘못된 방향으로 가는 것을 다루는 방법에 중점을 둠. 개발자-AI 피드백 루프를 완성하는 것이 진정한 생산성 향상의 열쇠라고 강조. 저자들에게 제안하는 댓글: 성공률이 연구자들에게만 의미가 있다고 지적하며, SWE-agent가 통과한 테스트와 통과하지 못한 테스트의 예를 README에 추가할 것을 제안. 오픈 소스 프로젝트 기여에 대한 댓글: 초보 개발자로서 오픈 소스 프로젝트에 기여할 방법을 찾는 데 도움이 되는 도구를 원함. 파이썬 패키징 문서가 난해함에도 불구하고, 이를 극복하고 쉽게 할 수 있게 되었다는 경험 공유. 현대화되지 않은 프로젝트를 찾아 개선을 제안하고 구현할 계획을 밝힘. 비슷한 아이디어나 영감을 가진 사람들과 아이디어를 나누고 싶어함.
Hacker News 의견
버그 리포트에 대한 댓글:
프로젝트에 대한 댓글:
사용된 방법론에 대한 댓글:
AI와 버그 트래커에 대한 댓글:
SWEbench 벤치마크에 대한 댓글:
데모 비교에 대한 댓글:
리뷰 작업에 대한 댓글:
유사 프로젝트에 대한 댓글:
저자들에게 제안하는 댓글:
오픈 소스 프로젝트 기여에 대한 댓글: