r 로지스틱 회귀분석 예제

설명 변수로 $X$를 부여하고 응답 변수로 $Y 경우 $p(X)=Pr(Y=1 |) 간의 관계를 어떻게 모델링해야 합니까? X)$ 및 $X$? 선형 회귀 모델은 다음과 같이 이러한 확률을 나타냅니다: 1- 확률이 음수일 수 없으므로 일반적인 회귀 모델에서 지수라는 용어를 도입하여 로지스틱 회귀를 만듭니다. plogis 함수에 대한 간략한 참고 사항: 패밀리=”이노미알”이 있는 glm() 프로시저는 지정된 수식에서 로지스틱 회귀 모델을 작성합니다. 이 모델에서 예측 함수를 사용하면 Y 변수의 로그(배당률)를 예측합니다. 예측된 값이 예상대로 0과 1 범위 내에 있지 않을 수 있기 때문에 이것이 궁극적으로 원하는 것이 아닙니다. 따라서 0과 1 사이에 바인딩된 예측 확률 점수로 변환하려면 plogis()를 사용합니다. 1- 선형 회귀 방법은 잔류를 최소화하려고 시도하며, 이는 ((mx + c) -y)²의 값을 최소화하는 것을 의미한다. 로지스틱 회귀 모델은 모든 변수를 고려한 후 최상의 정확도로 결과를 예측하려고 시도합니다. 일반 최소 제곱 추정을 사용하는 선형 회귀와 달리 예측 변수에서 설명하는 종속 변수의 분산 비율을 설명하는 통계는 없습니다. 그러나 가치가 있을 수 있는 의사 메트릭이 많이 있습니다. 가장 주목할만한 것은 McFadden`s입니다, 이는 지금 질문으로 정의, 우리는 어떻게 연속 변수를 사용하는 회귀 모델에 1과 0의 이진 정보를 매핑합니까? 우리가 매핑을 수행하는 이유는 모델이 원하는 결과가 사실일 확률을 찾을 수 있기를 원하기 때문입니다. 아래에서는 이 매핑을 수행하는 방법을 설명합니다. 로지스틱 회귀의 주요 전제는 여전히 몇 가지 체계적인 변경사항이 있는 일반적인 회귀 모델을 기반으로 합니다.

참고 : 기본 대수 (초등학교 수준)를 알아야합니다. 또한 회귀를 처음 접하는 경우 선형 회귀가 어떻게 작동하는지 먼저 읽는 것이 좋습니다. 예를 들어 셀 셰이프는 10개의 레벨을 가진 요인입니다. glm을 사용하여 클래스를 셀 셰이프 의 함수로 모델링하면 셀 쉐이프가 모델을 작성하기 전에 9개의 서로 다른 이진 범주형 변수로 분할됩니다. 결과적으로 선형 회귀 모델은 $y = ax + b$입니다. 모델은 응답 변수 $y$가 정량적이라고 가정합니다. 그러나 많은 상황에서 응답 변수는 질적이거나 즉 범주형입니다. 예를 들어, 성별은 남성 또는 여성의 가치를 고려하여 질적입니다. 팁: 선형 회귀기술을 다음 단계로 끌어올리는 데 관심이 있다면 DataCamp의 다중 및 로지스틱 회귀 코스도 고려해 보십시오! 선형 회귀와 마찬가지로 쿡의 거리 값으로 영향력 있는 관측값을 식별할 수도 있습니다.

This entry was posted in Uncategorized. Bookmark the permalink.

Comments are closed.