통계적 요소 분석 과정 개론

미래 예측도 분석

가우스 구성 요소를 사용하고 다음에서 관측값을 생성합니다. 선택한 밀도. 클래스당 하나의 가우시안의 경우 다음에서 볼 수 있습니다. 4장 선형 결정 경계가 할 수 있는 최선이며, 우리의 추정치는 거의 최적입니다. 겹치는 영역은 불가피하며, 예측할 미래 데이터도 이 중복으로 인해 어려움을 겪을 것입니다. 밀접하게 클러스터된 가우시안이 혼합된 경우에는 이야기가 다릅니다. 선형 결정 경계는 최적이 아닐 수 있으며 실제로는 아니다. 최적의 결정 경계는 비선형이고 분리되어 있습니다. 훨씬 더 얻기 어려울 것입니다. 이제 다른 분류 및 회귀 절차를 살펴봅니다. 어떤 의미에서는 스펙트럼의 반대쪽 끝에서 선형 모델과두 번째 시나리오에 훨씬 더 적합합니다.

동일한 훈련 데이터를 사용하고 다음을 사용합니다. 방법으로 이진 코딩된 응답의 15-최근접 이웃 평균 피팅의. 따라서 ˆ Y는 이웃에 있는 ORANGE의 비율이고, 따라서 ˆ Y > 0.5가 과반수 투표에 해당하는 경우 클래스 ORANGE를 ˆG에 할당 이웃. 컬러 영역은 입력의 모든 포인트를 나타냅니다.
이러한 규칙에 의해 BLUE 또는 ORANGE로 분류된 공간, 이 경우 입력 공간의 미세한 격자에서 절차를 평가합니다. 우리는 BLUE와 ORANGE 영역을 구분하는 결정 경계는 멀리 떨어져 있습니다.
더 불규칙하고 한 클래스가 지배하는 로컬 클러스터에 응답합니다. 그림 2.3은 1-최근접 이웃 분류에 대한 결과를 보여줍니다. ˆ Y는 훈련 데이터에서 x에 가장 가까운 점 x의 값 y를 할당했습니다. 에 이 경우 분류 영역은 비교적 쉽게 계산할 수 있으며, 훈련 데이터의 보로노이 테셀레이션에 해당합니다. 각 점 xi 가장 가까운 입력 영역을 경계로 하는 관련 타일이 있습니다. 가리키다. 타일의 모든 점 x에 대해 ˆG(x) = gi. 결정 경계는 짝수 전보다 더 불규칙하다. k-최근접 이웃 평균화 방법은 정확히 다음과 같이 정의됩니다. k = 1일지라도 양적 출력 Y의 회귀에 대해 동일한 방식으로 가능성이 없는 선택이 될 수 있습니다.

최소 제곱의 선형 결정 경계는 매우 매끄럽고 분명히 안정적으로 적합합니다. 가정에 크게 의존하는 것으로 보입니다. 선형 결정 경계가 적절합니다. 언어로 우리는 개발할 것입니다 간단히 말해서 분산이 낮고 편향이 높을 수 있습니다. 반면에 k-최근접이웃 절차는 다음과 같이 나타나지 않습니다. 기본 데이터에 대한 엄격한 가정에 의존하고 적응할 수 있습니다. 어떤 상황에도. 그러나 결정 경계의 특정 하위 영역 소수의 입력 포인트와 특정 위치에 따라 달라집니다. 따라서 흔들거리고 불안정합니다. 즉 높은 분산과 낮은 편향입니다. 각 방법에는 가장 잘 작동하는 고유한 상황이 있습니다. 특히 선형 회귀는 위의 시나리오 1에 더 적합하지만 가장 가까운 이웃은 시나리오 2에 더 적합합니다.

통계적 최소제곱 방법

통계에서 가장 유명한 결과 중 하나는 최소제곱이 매개변수의 추정값은 모든 선형 중에서 가장 작은 분산을 가집니다. 편견 없는 추정. 우리는 이것을 여기에서 정확하게 할 것이고 또한 분명히 할 것입니다 편향되지 않은 추정치에 대한 제한이 반드시 현명한 것은 아닙니다. 이것 관찰은 능선 회귀와 같은 편향된 추정치를 고려하게 합니다.

첫 번째 항은 분산이고 두 번째 항은 제곱 바이어스입니다. 가우스-마르코프 정리는 최소 제곱 추정기가 다음을 갖는다는 것을 의미합니다. 편향이 없는 모든 선형 추정기의 최소 평균 제곱 오차. 하지만, 평균 제곱 오차가 더 작은 편향된 추정기가 존재할 수 있습니다. 그러한 추정기는 분산의 더 큰 감소를 위해 약간의 편향을 교환할 것입니다. 편향된 추정치가 일반적으로 사용됩니다. 축소하거나 다음으로 설정하는 모든 방법 최소 제곱 계수의 일부가 0이면 편향된 추정이 발생할 수 있습니다.
우리는 가변 부분집합 선택 및 능선을 포함하여 많은 예를 논의합니다. 회귀, 이 장의 뒷부분에서. 보다 실용적인 관점에서 볼 때 대부분의 모델은 진실의 왜곡이므로 편향됩니다. 권리를 따기 모델은 올바른 균형을 만드는 데 도움이 됩니다.