Basic Knowledge/Mathematics

KL Divergence

  • -
728x90
반응형

본 게시글은 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)에 대해 쉽게 이해할 수 있도록 최대한 간략하게 작성한 글입니다.

더욱 자세한 내용을 알고싶다면, 아래의 참고 링크 부분의 링크를 참고 바랍니다.

 

아무래도 수학적인 내용이기 때문에, 잘 설명되어있는 블로그 링크로 대체하였음

 

초보를 위한 정보이론 안내서 - Entropy란 무엇일까

딥러닝을 공부하다 보면 KL-divergence, cross-entropy 등에서 entropy라는 용어를 자주 접하게 됩니다. 이번 글을 통해서 정보이론의 아버지라 불리는 Shannon이 주창한 기초 개념인 entropy를 정리해봅니다.

hyunw.kim

 

정보 엔트로피(information entropy) - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

 

초보를 위한 정보이론 안내서 - Cross Entropy 파헤쳐보기

Cross entropy는 두 분포 사이에 존재하는 정보량을 나타내는 개념이다.라는 식의 설명을 너무 많이 들었습니다. 하지만 이 개념이 정확히 무엇인지는 잘 설명되지 않고 그냥 쓰이는 것 같습니다.

hyunw.kim

 

KL divergence - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

 

  • KL-Divergence는 두 확률분포의 차이(첫번째 확률 분포 Q가 두번째 확률분포 P와 어떻게 다른지에 대한 척도)를 계산하는 데에 사용하는 함수
    • 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산
    • 일반적으로 P는 데이터나 관측값 혹은 계산된 확률분포를 나타내고, Q는 이론, 모델, 혹은 P의 근사적인 분포를 나타냄
  • 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 함
  • KL Divergence를 시각화(공돌이의 수학정리노트 블로그 자료 인용, 아래 참고링크에도 있음) 하면 아래와 같음

 

  • DKL(PQ)=HP(Q)H(P)
    • HP(Q) 는  P 의 기준으로 봤을 때의  Q 에 대한 크로스 엔트로피를 의미,  H(P) 는  P 에 대한 정보 엔트로피를 의미

 

 

참고 링크

https://en.wikipedia.org/wiki/Kullback–Leibler_divergence

https://hyunw.kim/blog/2017/10/27/KL_divergence.html

https://angeloyeo.github.io/2020/10/27/KL_divergence.html

https://namu.wiki/w/KL%20divergence

728x90
반응형

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.