[통계] Estimation (0) - Detection Estimation의 개념
Detection and Estimation Series 에는 2020년 2학기에 듣고 있는 Detection and Estimation 과목에서 공부한 이론을 바탕으로 작성할 예정이다. 과목 이름은 검출 및 추정이지만, 참고서는 Steven. Kay 저자의 Statistical Signal Processing 이다. 거기서 거기란 얘기다.
[1] 통계학 (Statistics) vs. 기계학습 (Machine Learning)
통계학적 신호처리 Statistical Signal Processing 는 디지털 신호처리 DSP - Digital Signal Processing 분야의 한 갈래로, 신호의 검출 Detection 및 추정 Estimation, 시계열 분석 Time-series Analysis 등을 다룬다. 하지만 신호를 데이터로 했을 뿐이지 그냥 통계학이다 ;;;;;
특히, 신호의 detection 및 estimation은 신호에서 정보를 추출 Extract 해 내는 것에 목적을 둔 학문 분야이다. Noisy observation 환경에서 알려지지 않은 정보에 대해 최적의 state value를 추론해낸다.
- Statistics와 Machine Learning 모두 다음과 같은 질문에 답할 수 있다.
How do we learn from data?
- Statistics는 formal한 Statistical “Inference추론” 에 초점이 맞추어져 있다.
- Machine Learning은 고차원 예측 문제를 구체화 한다.
[2] Detection & Estimation (검출 및 추정)의 예시
- 레이더 RADAR - RAdio Detection And Ranging
- Detection: 항공기의 존재
- Estimation: 항공기의 위치를 결정
- 디지털 통신 Digital Communications
- Detection: ‘0’과 ‘1’ 중 어떤 것이 전송되었는지
- Estimation: 신호를 복조Demodulate하기 위한 반송주파수Carrier Frequency를 추정
- 이미지 분석 Image Analysis
- Detection: 적외선 감시를 통해 특정 물체의 존재 유무
- Estimation: 카메라 이미지에서 물체의 위치와 방향
[3] Detection과 Estimation의 차이점
Detection (검출)
- Hypotheses 가설의 discrete set이다.
- Right / Wrong 으로 구분된다.
Estimation (추정)
- 가설의 continuous set이다.
- 거의 항상 wrong이지만, 오차 Error를 최소화하도록 한다.
[4] Estimation에 대한 기본 개념
Parameter Estimation (매개변수 추정)
“Real-world”에서 우리가 접하는 신호 파형Waveforms 또는 데이터 셋 Data set은 보통 연속시간을 기반으로 한다. 하지만 우리는 디지털 시스템인 컴퓨터를 이용해 처리를 하기 때문에, 연속시간 정보의 Sampling을 통해 이산시간을 기반으로 parameter를 extract하게 된다.
따라서, 이산시간 Discrete-time 의 waveforms 또는 Data set으로 이루어진 관측 값 Observatons $\bf{x}$로부터 parameter $\bf{\theta}$를 estimate / Infer추정한다. 즉, N-point의 data set $\bf{x}$는 알려지지 않은 parameter $\bf{\theta}$의 분포를 따르는데, 이 알려지지 않은 $\bf{\theta}$를 주어진 $\bf{x}$로 밝혀내겠다는 얘기다.
- 이들은 수학적으로 다음과 같은 벡터Vectors 또는 스칼라Scalars로 표현한다.
- 여기서는 단일 값을 추정하는 점 추정 Point Estimation 을 주로 다룬다. 상반되는 개념으로는 parameter의 구간을 추정해 내는 구간 추정 Interval Estimation 이 있다.
Estimator (추정기)
- 한국어로는 추정기 또는 추정량이라고 불린다. 어감이 다소 이상하여 Estimator로 통일하는게 좋은 듯 하다.
- Estimation: 실제 주어진 관측으로 얻어진 실현 값Realization Value $\bf{x}$으로 부터 unknown parameter $\theta$ 값을 구하는 것을 말한다.
- Estimator $\hat{\theta}$: 위의 Estimation 하는 방법을 말하며, 일종의 function \(g\) 이다.
Parameterized PDF (매개변수화 된 확률밀도함수 - Probability Density Function)
\[p(\textbf{x}; \bf{\theta})\]“좋은” estimator를 결정하는 데에 있어서 가장 첫 번째 단계는 데이터를 수학적으로 모델링 하는 것이다.
데이터는 본질적으로 random하기 때문에 위 식과 같은 PDF로 나타낸다. 이 PDF는 unknown parameter $\theta$로 매개변수화 한 것으로, $\theta$ 값에 따라 다른 PDF를 가지게 된다. 세미콜론 “;”는 의존성dependency을 나타내며, unknown parameter $\theta$에 의존성을 띈 N-point data set $\bf{x}$를 나타낸다.
“좋은” estimator를 결정하려면 PDF를 구체화 해야 하지만, 현실 문제에서는 PDF가 주어지지 않는다. 어떠한 제한과 prior knowledge에도 일관성 있고, 수학적으로도 다루기 쉬운 PDF를 선택해야 한다. 이러한 PDF 기반의 estimation에는 두가지 접근법이 있다.
- Classical Estimation
- 우리가 관심있는 unknown parameters가 random하지 않고 deterministic하다고 가정한다. 즉, 고정되어 있는 unknown parameter를 estimation 하는 방법이다.
- Bayesian Estimation
- Hypotheses와 Parameters는 a priori distributions를 가정한, 확률변수random variable로 다뤄진다.
- $p(x;\theta)$에서 $\theta$ 가 우리가 estimation 하고자 하는 parameter로, random variable 이라는 것을 명심해야 한다.
- $p(\theta)$는 사전에 관측된 어떤 데이터로부터 $\theta$에 대한 우리의 knowledge를 요약하는 prior PDF 이다.
- $p(\textbf{x} | \theta)$는 $\theta$를 알고 있다는 조건 하에 주어진 데이터 $\textbf{x}$에서 우리의 knowledge를 요약하는 conditional PDF이다.
Notation
\(p(x;\theta)\), \(p(x,\theta)\), \(p(x\mid \theta)\) 간의 차이점 및 관계
- $p(x;\theta)$는 Parameterized pdf 이다.
- Random Variable(이하 r.v. : 확률변수) 𝑋 의 한 점 𝑥에서의 Probability Density (이하 pdf : 확률분포) 를 말하는데, 여기서 𝜃 는 어떤 분포에 대한 parameter 이다.
- Function of parameter \(\theta\)
- \(p(x,\theta)\)는 Joint pdf 이다.
- \(𝑋\)와 \(\Theta\)의 한 점 \((x,\theta)\)에서의 Joint pdf (결합 확률분포)를 말한다. 이는 \(\Theta\) 가 r.v.일 때만 성립한다.
- Intersection : 사건의 개념으로 보았을 때에는 두 사건의 교집합, 그래프로 시각화 하여 보았을 때에는 두 분포가 겹치는 부분이 되겠다.
- \(p(x\mid \theta)\) 는 Conditional pdf 이다.
- \(\Theta\)가 주어졌을 때 \(𝑋\)의 Conditional pdf (조건부 확률분포)이며, 이는 \(\Theta\)가 r.v. 일 때만 성립한다.
- 다음과 Marginal pdf 와 Joint pdf 로 정의할 수 있다.
- 이 식은 곧 Bayesian Estimation에 응용된다.
Reference
- [1] S. Kay. Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice-Hall International Editions, Englewood Cliffs, NJ, 1993.
- [2] GIST EC7204 Detection and Estimation Lecture from Prof. 황의석
Leave a comment