개발/수학

[Bayes Theorem] 베이즈 정리 연습

jykim23 2023. 10. 17. 16:20

ChatGPT가 설명하는 베이시스 정리와 그 용어 설명...

 

Prior (사전 확률):
Prior는 사건 또는 가설에 대한 믿음의 초기 분포를 나타냅니다.
사전 확률은 어떤 사건 또는 가설이 발생할 가능성을 이전 정보 또는 경험을 기반으로 나타내는 것입니다.
Prior는 아직 어떤 새로운 관측 데이터를 고려하기 전에 알고 있던 것으로, 이전 지식이나 주관적 믿음을 반영합니다.

 

Likelihood (우도):
Likelihood는 주어진 가설 또는 사건 하에서 관측된 데이터가 발생할 확률을 나타냅니다.
이것은 데이터와 모델 또는 가설 사이의 관련성을 정량화합니다.
Likelihood는 가설이 어떻게 데이터를 생성하는지에 대한 정보를 제공합니다.

Posterior (사후 확률):
Posterior는 주어진 관측 데이터와 prior, 그리고 likelihood를 결합하여 얻는 것으로, 어떤 가설 또는 사건이 관측 데이터를 고려할 때의 확률을 나타냅니다.
Posterior는 사전 정보와 데이터로부터 얻은 정보를 조합하여 업데이트된 확률을 나타내며, 이것이 최종 관심 대상입니다.

 

Bayes' Theorem (베이즈 정리):
베이즈 정리는 prior, likelihood, 그리고 posterior 간의 관계를 나타내는 중요한 수식입니다.
베이즈 정리는 다음과 같이 표현됩니다:
P(A|B) = (P(B|A) * P(A)) / P(B)
여기서 P(A|B)는 사후 확률 (posterior), P(B|A)는 우도 (likelihood), P(A)는 사전 확률 (prior), P(B)는 데이터 B의 확률입니다.
베이즈 정리를 사용하여 사전 정보를 이용하여 사후 확률을 업데이트할 수 있습니다.

 


요약하면, prior는 사전 지식, likelihood는 데이터와 가설 또는 모델 간의 관련성, posterior는 prior와 likelihood를 결합한 업데이트된 확률을 나타냅니다. 베이즈 정리는 이러한 요소들 간의 관계를 형식적으로 나타내며, 베이지안 추론 및 통계에서 중요한 역할을 합니다.




---연습---

암환자/정상인 : C/~C
양성/음성 : P/~P


암 자연발생율 -> 0.1%
암환자의 양성 검측 확률 : 95%

암환자의 음성 검측 확률 : 5%
정상인의 양성 검측 확률 : 2%
정상인의 음성 검측 확률 : 98%

# prior probability : 암환자/정상인의 확률
P(C) = 0.001 # 암 자연 발생율
P(~C) = 0.999 # 암 자연 미발생율

# Likelihood : 암환자/정상인일 경우 양/음성이 검측될 확률
P(P|C) = 0.95 # 암환자의 양성 확률
P(~P|C) = 0.05 # 암환자의 음성 확률
P(P|~C) = 0.02 # 정상인의 양성 확률
P(~P|~C) = 0.98 # 정상인의 음성 확률

(joint probability 사용) 
# 사람(암환자+정상인)의 양/음성일 확률(교집합의 확률). 

# 각각의 조건(C/~C)에서의 확률을 모든 조건(C + ~C)에서의 확률로 변환.
P(P n C) = P(C) * P(P|C) # 암환자(확률) * 암환자의 양성(확률) = 암환자의 양성 확률/(암환자+정상인) = 양성 암환자 확률
P(~P n C) = P(C) * P(~P|C) # 암환자 * 암환자의 음성 = 암환자의 음성 확률/(암환자+정상인) = 음성 암환자 확률
P(P n ~C) = P(~C) * P(P|~C) # 정상인 * 정상인의 양성 = 정상인의 양성 확률/(암환자+정상인) = 양성 정상인 확률
P(~P n ~C) = P(~C) * P(~P|~C) # 정상인 * 정상인의 음성 = 정상인의 음성 확률/(암환자+정상인) = 음성 정상인 확률

# P(P), P(~P) : 양/음성이 검측될 확률
P(P) : 양성 암환자 확률 + 양성 정상인 확률
P(~P) : 음성 암환자 확률 + 음성 정상인 확률
P(P) = P(P n C) + P(P n ~C) = (P(C) * P(P|C)) + (P(C) * P(P|~C)) = ((0.001 * 0.95) + (0.999 * 0.02)) = 0.02093
P(~P) = P(~P n C) + P(~P n ~C) = (P(C) * P(~P|C)) + (P(C) * P(~P|~C)) = ((0.001 * 0.05) + (0.999 * 0.98)) = 0.97907


# posterior probability : 양/음성이 검측되었을 때 암환자/정상인의 확률
P(C|P) : 양성이 검측되었을 경우 암환자일 확률 
    = 분모(양성일 확률), 분자(양성 암환자일 확률)
    = 양성일 확률 : P(P), 암환자일 확률 : P(P n C) -> P(C) * P(P|C)

P(C|P) = (P(P n C)/P(P)) = P(P|C) * P(C) / P(P) = (0.95 * 0.001)/0.02093
P(~C|P) = (0.02 * 0.999)/0.02093
P(C|~P) = (0.05 * 0.001)/0.97907
P(~C|~P) = (0.98 * 0.999)/0.97907

양성으로 검측되었을 때 암환자일 확률 : 0.04538939321548017
양성으로 검측되었을 때 정상인일 확률 : 0.9546106067845198
음성으로 검측되었을 때 암환자일 확률 : 5.1068871480078036e-05
음성으로 검측되었을 때 정상인일 확률 : 0.9999489311285199