기금넷 공식사이트 - 복권 조회 - 누락된 값을 처리하는 네 가지 방법
누락된 값을 처리하는 네 가지 방법
1. 누락된 값이 있는 시나리오를 삭제합니다.
주로 단순 삭제법과 가중치법이 있습니다. 단순 삭제는 누락된 값을 처리하는 가장 원시적인 방법입니다. 누락된 값이 있는 시나리오를 삭제합니다. 이 방법은 누락된 데이터의 문제가 소량의 샘플을 간단히 삭제하여 실현될 수 있는 경우에 가장 효과적입니다. 누락된 값의 유형이 불완전한 임의 누락인 경우 전체 데이터에 가중치를 부여하여 편차를 줄일 수 있습니다.
불완전한 데이터 사례에 태그를 지정한 후 전체 데이터 사례에 다른 가중치를 부여하며, 사례의 가중치는 logistic 또는 probit 회귀를 통해 얻을 수 있습니다. 가중치 추정 선 계수를 결정하는 해석 변수에 변수가 있는 경우 이 방법을 사용하면 편차를 효과적으로 줄일 수 있습니다. 해석 변수와 가중치가 관련이 없는 경우 편차를 줄일 수 없습니다.
여러 속성이 누락된 경우 서로 다른 속성의 누락된 조합에 서로 다른 가중치를 부여해야 계산의 난이도를 크게 높이고 예측의 정확성을 줄일 수 있습니다. 이때 중량법은 아랑곳하지 않는다.
2. 누락된 값은 가능한 값에 의해 보간됩니다.
생각의 원천은 누락된 값을 가장 가능한 값으로 보간하면 모든 불완전한 샘플을 삭제하는 것보다 정보 손실이 적다는 것입니다.
데이터 마이닝에서는 일반적으로 수십 ~ 수백 개의 속성을 가진 대규모 데이터베이스에 직면합니다. 하나의 속성 값이 없기 때문에, 우리는 많은 다른 속성 값을 포기했다. 이러한 삭제는 정보에 큰 낭비이므로 누락된 값을 가능한 값으로 보간하는 생각과 방법이 생겨났습니다. 일반적인 방법은 다음과 같습니다.
(1) 평균 보간. 데이터의 속성은 정거리 및 비정거리 유형으로 구분됩니다. 누락된 값이 고정 거리 유형인 경우 누락된 값은 속성에 대한 기존 값의 평균으로 보간됩니다. 누락된 값이 비정거리인 경우 누락된 값은 통계학의 대중 원칙에 따라 속성의 대중 수 (즉, 빈도가 가장 높은 값) 로 보충됩니다.
(2) 유사한 평균 보간을 사용합니다. 동일한 평균 보간 방법도 단일 값 보간에 속하지만 계층 클러스터 모델을 사용하여 누락된 변수의 유형을 예측한 다음 해당 유형의 평균을 사용하여 보간합니다. X=(X 1, x2 ... XP) 는 완전한 정보를 가진 변수이고, y 는 누락된 값을 가진 변수이며, 먼저 x 또는 그 하위 세트를 클러스터링한 다음 누락된 사례가 속한 범주에 따라 서로 다른 범주의 평균을 보간한다고 가정합니다.
도입된 해석 변수와 Y 가 향후 통계 분석에서 분석해야 하는 경우 이 보간 방법은 모델에 자기 상관을 도입하여 분석에 장애를 일으킵니다.
(3) 최대 우도 추정. 누락된 유형이 무작위인 조건에서 모델이 전체 샘플에 대해 정확하다고 가정하면 관찰 데이터의 한계 분포를 통해 알 수 없는 매개변수를 매우 유사하게 추정할 수 있습니다. 이 방법은 누락된 값을 무시하는 최대 우도 추정이라고도 하며, 최대 우도 매개변수 추정에 일반적으로 사용되는 계산 방법은 최대화를 기대하는 것입니다.
이 방법은 사례와 단일 값 보간을 삭제하는 것보다 더 매력적입니다. 큰 샘플에 적합하다는 중요한 전제 조건이 있습니다. 유효 샘플의 수는 최대 우도 추정치가 점점 가까워지고 정규 분포에 따르기에 충분하다. 그러나 이 방법은 로컬 극값에 빠질 수 있습니다. 수렴 속도가 빠르지 않고 계산이 매우 복잡합니다.
(4) 다중보간법. 다중값 보간의 사상은 베네스 추정에서 비롯되며, 보간할 값은 무작위이며, 그 값은 관찰에서 비롯된다. 실제로 보간할 값을 먼저 추정한 다음 다른 노이즈를 추가하여 여러 개의 선택적 보간 값 세트를 만듭니다. 일부 선택 기준에 따라 가장 적합한 보간 값을 선택합니다.