Basic Knowledge/Mathematics

KL Divergence

  • -
728x90
반응형

0. 들어가기에 앞서

본 게시글은 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)에 대해 쉽게 이해할 수 있도록 최대한 간략하게 작성한 글입니다.

더욱 자세한 내용을 알고싶다면, 아래의 참고 링크 부분의 링크를 참고 바랍니다.

 

1. 배경 지식

아무래도 수학적인 내용이기 때문에, 잘 설명되어있는 블로그 링크로 대체하였음

1.1. 엔트로피

 

초보를 위한 정보이론 안내서 - Entropy란 무엇일까

딥러닝을 공부하다 보면 KL-divergence, cross-entropy 등에서 entropy라는 용어를 자주 접하게 됩니다. 이번 글을 통해서 정보이론의 아버지라 불리는 Shannon이 주창한 기초 개념인 entropy를 정리해봅니다.

hyunw.kim

 

정보 엔트로피(information entropy) - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

1.2. 크로스 엔트로피

 

초보를 위한 정보이론 안내서 - Cross Entropy 파헤쳐보기

Cross entropy는 두 분포 사이에 존재하는 정보량을 나타내는 개념이다.라는 식의 설명을 너무 많이 들었습니다. 하지만 이 개념이 정확히 무엇인지는 잘 설명되지 않고 그냥 쓰이는 것 같습니다.

hyunw.kim

 

KL divergence - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

 

2. 개념

  • KL-Divergence는 두 확률분포의 차이(첫번째 확률 분포 \( Q \)가 두번째 확률분포 \( P \)와 어떻게 다른지에 대한 척도)를 계산하는 데에 사용하는 함수
    • 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산
    • 일반적으로 \( P \)는 데이터나 관측값 혹은 계산된 확률분포를 나타내고, \( Q \)는 이론, 모델, 혹은 \( P \)의 근사적인 분포를 나타냄
  • 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 함
  • KL Divergence를 시각화(공돌이의 수학정리노트 블로그 자료 인용, 아래 참고링크에도 있음) 하면 아래와 같음

 

3. 계산 방법

  • \( D_{KL}(P\|Q) =  H_P(Q) - H(P) \)
    • \( H_P(Q) \) 는  \( P \) 의 기준으로 봤을 때의  \( Q \) 에 대한 크로스 엔트로피를 의미,  \( H(P) \) 는  \( P \) 에 대한 정보 엔트로피를 의미

 

 

참고 링크

https://en.wikipedia.org/wiki/Kullback–Leibler_divergence

https://hyunw.kim/blog/2017/10/27/KL_divergence.html

https://angeloyeo.github.io/2020/10/27/KL_divergence.html

https://namu.wiki/w/KL%20divergence

728x90
반응형

'Basic Knowledge > Mathematics' 카테고리의 다른 글

Bi-Partite Matching  (0) 2023.04.12
Extended Kalman Filter  (0) 2023.03.27
rigid motion과 non-rigid motion  (0) 2023.02.27
Exponential Moving Average  (0) 2023.02.10
Mahalanobis Distance  (0) 2023.02.10
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.