1 minute read

우도가 정규분포를 따르는 경우

정규분포 표현식

정규분포

우도를 아래와 같이 다시 쓰면

정규분포

분별식을 정규분포와 로그를 이용해 다시 쓰면

정규분포


결정 경계선

두 부류 (w_i)와 (w_j)의 결정경계는 다음과 같이 정의된다. [ g_{ij}(x) = g_i(x) - g_j(x) = 0 ] 위 식을 만족하는 (x)의 위치가 결정경계선이다.


선형 분별 분석 (LDA)

모든 부류의 공분산 행렬이 동일한 경우, 선형 분별 함수를 사용할 수 있다.

  • 공분산 행렬이 같은 경우, 분별함수를 다시 쓰면 다음과 같다. 정규분포

  • (i)에 무관한 항을 무시하여, 선형식으로 다시 쓰면 다음과 같다. 정규분포

  • 결정 경계선 식으로 표현하면 다음과 같다. 정규분포 정규분포 정규분포

결정 경계 그래프

결정 경계 그래프는 선형 결정 경계를 나타낸다. 정규분포

  • (a)는 두 부류의 공분산 행렬이 같은 경우이고, (b)는 두 부류의 공분산 행렬이 같고 대각선 요소가 모두 0인 경우(단위 행렬을 곱한 경우)이다.

이미지에서 원이 3겹으로 그려진 것은 가우시안 분포(정규 분포)의 확률 밀도 함수를 등고선처럼 표현한 것이다. 3겹의 원은 다음과 같은 의미를 가진다.

  • 안쪽 원: 평균(μ)에 가까운 점들이며, 해당 클래스에 속할 확률이 높다. 이 원 내부에 위치한 데이터는 해당 클래스에 속할 가능성이 크다.
  • 바깥쪽 원: 평균에서 멀어질수록 해당 클래스에 속할 확률이 낮아진다. 바깥쪽 원일수록 해당 클래스에 속할 가능성이 작다.
  • 등확률 곡선: 각 원은 동일한 확률 밀도를 나타낸다. 예를 들어, 첫 번째 원은 확률 밀도가 높은 구간, 두 번째 원은 그보다 낮은 구간을 나타낸다.

타원형 모양은 가우시안 분포의 공분산 행렬에 의해 결정된다. 두 클래스의 상관관계가 크면 (+) 큰 공분산 값을 가지며, 타원형은 북동/남서 방향으로 길어진다. 반대로, 상관관계가 반비례 관계여서 공분산이 (-) 값을 가지면 타원형은 북서/남동 방향으로 길어진다. 상관관계가 없어 공분산이 0에 가깝거나 (b)처럼 공분산이 0인 경우, 타원 대신 원으로 나타난다.


2차 분별

공분산 행렬에 제약이 없는 경우, 분별함수 (g_{ij}(x))에 2차항이 남아 있어 직선이 아닌 2차 곡선으로 결정 경계선이 나타난다. 정규분포

쌍곡선으로 나타나는 2차 분별 결정 경계선

정규분포


최소 거리 분류기

마할라노비스 거리와 유클리디안 거리

정규분포

두 부류의 거리 분류

정규분포


기각 처리

분류하기 애매한 경우에는 분류하지 않고 기각 처리한다. 정규분포