GN⁺: 2015년 Linear Regression의 진실
(stat.cmu.edu)선형 회귀의 진실
-
소개
- 이 문서는 2015년 가을에 36-401, 현대 회귀 강의를 할 때 작성한 강의 노트를 기반으로 함
- 선형 회귀를 배우거나 가르치는 사람들에게 도움이 될 수 있음
- 기존의 이론에서 Gaussian 노이즈와 정확히 지정된 선형 모델에 의존하는 부분을 줄이고, 더 계산 집약적이지만 견고한 기술을 강조함
-
PDF 전체 텍스트
- 데이터 파일
- 각 장의 R 코드
- 현재 개요
-
최적 예측
- 통계 모델링 소개
- 단순 선형 회귀 모델과 추정에 대한 힌트
-
단순 선형 회귀를 위한 최소 제곱법
- 단순 선형 회귀를 위한 최대 우도법
- 단순 회귀 진단 및 수정
- 매개변수에 대한 추론
- 단순 선형 모델에 대한 예측 추론
- 변환 후 매개변수 해석
- F-검정, R^2 및 기타 주의사항
- 행렬 형식의 단순 선형 회귀
-
다중 선형 회귀
- 다중 선형 회귀 진단 및 추론
- 다항 및 범주형 회귀
- 다중공선성
- 검정 및 신뢰 구간
- 상호작용
- 이상치 및 영향력 있는 점
- 모델 선택
- 검토
- 가중 및 일반화된 최소 제곱법
- 변수 선택
- 트리
- 부트스트랩 I
- 부트스트랩 II
GN⁺의 정리
- 이 문서는 선형 회귀에 대한 현대적인 접근 방식을 제공하며, 기존의 이론적 한계를 극복하기 위해 더 견고한 계산 방법을 강조함
- 통계 모델링과 회귀 분석에 대한 기초부터 고급 주제까지 포괄적으로 다루고 있음
- 특히, 다중공선성, 변수 선택, 부트스트랩 등 실무에서 중요한 주제들을 포함하고 있음
- 이 문서는 통계학과 데이터 과학을 공부하는 학생이나 실무자에게 유용할 수 있음
- 유사한 기능을 가진 다른 프로젝트로는 "Advanced Data Analysis from an Elementary Point of View"가 있음
Hacker News 의견
-
대부분의 사람들이 선형 회귀를 잘 이해하지 못함
- 모든 일반적인 통계 테스트는 선형 모델임
- 선형 모델은 매개변수에 대해 선형적이지, 응답에 대해 선형적이지 않음
- 적절한 스플라인 기저를 선택하면, 예측 변수와 응답 간의 많은 비선형 관계를 선형 모델로 모델링할 수 있음
- 테일러 정리에 따라 선형 관계는 비선형 관계의 좋은 근사치가 될 수 있음
-
CMU에서 10년 전 통계 수업을 들었는데, R을 배우게 되어 좋았음
- 선형 회귀의 큰 약점은 작은 교육 데이터셋에는 유효하지만, 실제 데이터에는 적용하기 어려움
-
Ridge Regression이 다중공선성 문제를 해결하는 데 유용함
- 요즘은 과적합 방지 정규화 기법으로 배우지만, 원래는 고도로 상관된 예측 변수들 간의 가중치를 균형 있게 조정하는 데 사용됨
-
Citadel의 정량 연구자가 선형 회귀를 어떻게 사용하는지 배우고 싶음
- 그들이 어떤 이론적 결과를 중요하게 생각하는지 궁금함
-
학부 과정에서 여러 번 선형 회귀를 배웠음
- 통계와 확률 이론을 통해 최적성이 증명될 수 있음
-
박사 과정에서는 주로 딥러닝 모델을 사용한 회귀 문제를 다룸
- 고전적인 선형 모델의 엄격한 증명과 정리를 딥러닝 회귀 모델에 적용할 수 있는 방법이 있으면 좋겠음
-
Shalizi의 "Data Analysis from an Elementary Point of View"는 좋은 입문서임
- 선형 및 가산 모델과 시뮬레이션에 중점을 둠
- 책의 90%는 컴퓨터 없이는 쓸모없지만, 이는 현대의 진리임
-
회귀에서 가장 중요한 기술은 절편을 인식하는 것임
- 상호작용 항을 포함하면 절편의 의미를 이해하는 것이 중요함
- 예를 들어, 나이와 자폐증 진단 변수를 포함한 단순 선형 모델에서 절편이 의미하는 바를 이해해야 함
-
XGBoost를 사용한 회귀를 가르치는 사람으로서, 이 글이 매우 유익하고 접근하기 쉬움
- 특히 6장, 시각적 진단이 매우 잘 작성되었음
-
이 글에서는 언급되지 않았지만, 선형 회귀도 딥러닝에서 흔히 볼 수 있는 Double Descent 현상을 보임
- 이를 위해서는 정규화를 도입해야 함
-
이 PDF를 모바일 최적화된 형태로 변환하는 방법을 알고 있는지 궁금함