Cross entropy là gì, entropy, cross entropy và kl divergence

     
Lý tmáu báo cáo (Information Theory) là một nhánh tân oán vận dụng quan tâm đến các vụ việc định lượng (quantification), lưu trữ (storage) với truyền thông media (communication) của lên tiếng. Thông tin là một quan niệm trừu tượng (không phải một thực thể lý tính) cho nên thiệt nặng nề để định lượng lên tiếng theo cách thông thường. Trong bài viết này, văn bản tìm hiểu biện pháp định lượng biết tin, các độ đo biết tin Entropy, Cross Entropy, Kullback–Leibler divergence, mối quan hệ của chúng với một vài vận dụng của không ít độ đo này.

Bạn đang xem: Cross entropy là gì, entropy, cross entropy và kl divergence


Nguồn Khan Academy


Lý ttiết thông tin được thủ xướng bởi vì Claude E. Shannon vào khoảng thời gian 1948 với bài xích báo kỹ thuật có title “A Mathematical Theory of Communication” đặt cơ sở nghiên cứu và phân tích nền tảng về các giới hạn liên quan mang đến xử lí biểu lộ (signal processing) cùng các làm việc truyền thông media (communication operations) nhỏng nén tài liệu. Phần mập vận dụng của kim chỉ nan đọc tin thường tương quan tới việc nén tài liệu (ZIP, MP3, JPEG,…) với mã hóa kênh (truyền dữ liệu số qua con đường dây điện thoại thông minh,…).

*

Thoạt nghe qua thì dường như như lý thuyết đọc tin chẳng liên quan gì mang đến thống kê lại và học trang bị nhưng mà thực tiễn lại sở hữu một sự liên kết sâu xa! Độ đo Entropy, Cross Entropy, Kullback–Leibler divergence là đầy đủ độ đo được sử dụng rất nhiều trong học tập sản phẩm công nghệ dùng để đào tạo và giảng dạy những bộ phân lớp, bởi sao vậy? Chúng ta đang đi tìm câu trả lời tức thì sau đây!

Biểu đồ phía trên được Điện thoại tư vấn là hệ thống media (Shannon communication system) nằm trong bài báo khét tiếng “A Mathematical Theory of Communication”:

Mục tiêu của một hệ thống truyền thông media là truyền sở hữu phần đông thông điệp xứng đáng tin cậy với hiệu quả từ người gửi đến người thừa nhận.

The fundamental problem of communication is that of reproducing at one point, either exactly or approximately, a message selected at another point.— Claude E. Shannon

Nếu nlỗi thông điệp bên trong một tập hữu hạn sự lựa chọn truyền thông media mà lại mối cung cấp cùng đích hoàn toàn có thể giao tiếp được (với mọi sự tuyển lựa là nlỗi nhau) thì lúc ấy số lượng thông điệp hoặc bất kể hàm solo điệu làm sao của chính nó hoàn toàn có thể được coi như xét như một độ đo ban bố tái sản sinh thông điệp được chọn từ bỏ tập trước đó. Claude E. Shannon cho rằng một trong những hàm toán học tập cân xứng cùng với tuyệt nhất với Việc này là hàm logarit.

Sự lựa cơ số cho hàm logarit dựa vào vào đơn vị giám sát và đo lường công bố. Nếu nlỗi cơ số được chọn là $2$ thì đơn vị đo là bits biết tin (binary digits), nhiều lúc cũng có tài năng liệu hotline đơn vị chức năng ban bố lúc sử dụng cơ số $2$ là shannon, nếu nhỏng cơ số là $ e approx 2,71828182846…$ tuyệt nói theo một cách khác hàm áp dụng là hàm logarit thoải mái và tự nhiên thì đơn vị chức năng lên tiếng là nats (dựa trên tên gọi natural logarithm), giả dụ nlỗi cơ số là $10$ thì đơn vị thông báo là hartley (còn hay gọi dit hoặc ban).

Trong kỷ nguyên số, cỗ phân phát mã hóa thông điệp bên dưới dạng dãy bits và gửi vào kênh truyền đến bộ thu. Bit viết tắt của Binary digIT, được Điện thoại tư vấn là đơn vị giám sát thông báo. Một bit rất có thể thừa nhận 1 trong những nhì giá bán trị: $0$ hoặc $1$. Dể dàng phân biệt rằng một bit màn trình diễn cho nhị sự chọn lựa.

*

Xét bài bác toán đơn giản tiếp sau đây, một trạm đoán trước khí hậu gửi thông điệp đến những hộ mái ấm gia đình về tình trạng thời tiết địa phương:

Thông điệp: tập thông điệp là $ extmưa, extnắng, exttuyết, extâm u $ nhưng địa điểm gởi với đích mang đến rất có thể giao tiếp được với nhau. Giả định rằng xác suất xẩy ra mưa, nắng, tuyết, ảm đạm là giống hệt. Sở phân phát với cỗ thu mã hóa với lời giải nhị phân.

Với mục đích truyền thông nlỗi trên, thì lượng đơn vị lên tiếng bắt buộc dùng là:$$log_2(4) = 2 ext (bits)$$Với $2 ext bits$ là quý giá $ extbits$ định lượng ban bố cho mục đích media biểu hiện bên trên. Một thắc mắc được đặt ra: bạn cũng có thể gửi một tnóng hình ảnh $200 ext KB$ hoặc gửi một chuổi kí từ “rainy”, “sunny”, “snowy”, “gloomy” nhằm Ship hàng mục đích truyền thông media nhỏng bên trên thì quý hiếm định lượng đọc tin gồm thay đổi không? Thực tế thì bạn có thể gửi từng nào dữ liệu cũng khá được, nhưng mà số lượng $ extbits$ ít nhất nhằm các bạn truyền thông điệp trên chắc hẳn rằng là $2 ext bits$. Và vày mục tiêu truyền thông media là truyền download thông điệp trường đoản cú nơi gửi đến khu vực nhấn, trường hợp như ta không quan tâm đến “ban bố thừa” gây ra (phần thông tin dôi ra) thì giá trị định lượng lên tiếng đến kim chỉ nam trên chỉ bao gồm $2 ext bits$ là bits đọc tin.


Nhưng giả dụ như từng thông điệp “tài năng xảy ra” không như nhau nhưng mà dưới một Xác Suất thì sao?

Trước khi bàn thảo về độ đo Entropy thì bạn thích trình làng với các bạn về độ đo self-information để định lượng ban bố của một thông điệp gồm phần trăm xảy ra $p$. Độ đo lượng chất thông tin được quan niệm nlỗi sau:

Hàm lượng thông tin (Self-information)
Độ đo hàm vị công bố của một thông điệp với cùng 1 đổi mới thế $E$ là: $$ extI(E) = log_bfrac1Pr(E)$$Với $b$ là cơ số nhờ vào vào đơn vị biết tin.

Xem thêm: Phép Tương Phản Là Gì - ĐịNh NghĩA Về PhéP Tương PhảN Và Tăng TiếN

Một cách cảm tính, nếu như như thông điệp gắn liền với một thay đổi thế chắc chắn là xẩy ra (phần trăm $p=1$) ví dụ như sa mạc Sahara luôn luôn nắng nóng (mang định rằng Phần Trăm Sahara nắng và nóng quanh năm $p=1$), nếu khách hàng đang biết công bố này trường đoản cú trước, thì câu hỏi media tất cả đem về lượng biết tin nào cho bạn không?

Mình đang sinh sống sa mạc Sahara với gửi một thông điệp qua tin nhắn cho bạn rằng: “kính chào cậu, lúc này ttách nắng nóng đấy!”. Thông điệp này ắt hẳn chẳng mang trong mình 1 chút biết tin làm sao cho bạn cả! Bởi vì chưng như Sahara thời điểm hầu như lúc như thế nào chẳng nắng?

Nó dẫn đến phát minh thi công độ đo các chất biết tin như sau $ extI(E)$ như sau:

Hàm này bắt buộc nhờ vào vào Xác Suất xảy ra của biến nỗ lực $E$ hay có thể nói rằng $ extI(E) =f(Pr(E))$ với $f(.)$ là hàm nhưng mà họ buộc phải kiếm tìm. Nếu như tỷ lệ $Pr(E) = 1$ thì $I(E) = 0$, nếu nhỏng $Pr(E) 0$.$ extI(E)$ bắt buộc là một trong độ đo không âm, nghịch vươn lên là với $Pr(E)$ Lúc $Pr(E)$ càng tăng thì hàm lượng báo cáo càng bớt $ extI(E)$. Nếu nhỏng một sự khiếu nại xẩy ra tiếp tục vào cuộc sống, lúc nó thường xuyên xảy ra, thì chẳng có gì bất ngờ cả (không nhiều thông tin). Tuy nhiên nếu như sự khiếu nại không chắc chắn là xẩy ra, dẫu vậy lại xảy ra thì chắc chắn rằng thông điệp mang về một lượng lên tiếng Khủng (các thông tin).Nếu nhỏng $A$ với $B$ là hai đổi thay cụ chủ quyền, Hotline $C = A cap B$, ta tất cả $Pr(A cap B) = Pr(A)Pr(B)$ thì $ extI( C) = extI(A) + extI(B)$. Tính chất trên được Gọi là lên tiếng dựa vào các biến chuyển cụ tự do mang ý nghĩa hóa học cộng tính. Đây là đặc thù quan trọng đặc biệt nhất!

Để phần nào đọc tại vì sao lên tiếng phải đặc thù cùng tính Khi các trở thành vắt tự do là một trong tính chất đặc biệt, bạn cũng có thể xét ví dụ sau đây: Tung đồng xu lên nhì lần, hotline $A$ là vươn lên là cụ lần tung thứ nhất là khía cạnh ngửa, điện thoại tư vấn $B$ là thay đổi ráng lần tung sản phẩm nhị là khía cạnh ngửa, cụ thể $A$ với $B$ là hai biến cầm tự do, call $C= A cap B$ tốt có thể nói rằng $C$ là vươn lên là vắt tung nhị lần các là ngửa, ví như thông điệp là $C$ thì cụ thể lên tiếng mà bạn có là “A xảy ra” với “B xảy ra” điều đó nếu như có một độ đo báo cáo phù hợp thì nó buộc phải thỏa đặc điểm cộng tính nhỏng bên trên.

Thế $f(.)$ vào tính chất sau cuối ta có:$$ f(Pr( C)) = f(Pr(A)) + f(Pr(B))$$Mà ta biết rằng $Pr( C) = Pr(A)Pr(B)$ nên khi này$$ f(Pr(A) Pr(B)) = f(Pr(A)) + f(Pr(B))$$Đặt $x = Pr(A)$ với $y = Pr(B)$ viết gọn lại$$ f(x.y) = f(x) + f(y)$$

Lớp các hàm thỏa mãn điều bên trên bao gồm dạng: $f(x) = K cdot ln x$. Lưu ý là do phải thỏa mãn nhị ĐK đầu, trường đoản cú khi Phần Trăm luôn là một số luôn luôn bên trong đoạn $0$ cho $1$ và biết tin của một thay đổi nạm yêu cầu không âm, cho nên vì thế $Ktin tức hoàn toàn có thể định lượng được bởi một đơn vị chức năng thông báo (bits, nats,…)Nếu nlỗi thông điệp bên trong một tập thông điệp với kĩ năng xảy ra là tương đồng thì lượng ban bố của thông điệp là $log_b N$ cùng với $N$ là con số thông điệp và $b$ là cơ số của đơn vị ban bố sử dụng.Nếu nlỗi thông điệp phía trong một tập thông điệp, mà thông điệp bao gồm Phần Trăm xảy ra là $p$ thì lượng đọc tin của thông điệp là $log_bleft(1/p ight)$. Lưu ý là $N=1/p$ rất có thể diễn giải là số lượng thông điệp mà lại mối cung cấp tin gây ra cđọng $N$ thông điệp thì phát sinh $1$ thông điệp mà lại ta sẽ xét, cho nên thông điệp tất cả tỷ lệ $1/p$.Tính hóa học của thông tin: lên tiếng càng những (càng bất ngờ) là phần lớn sự khiếu nại càng ít xẩy ra, đọc tin càng ít (càng hiển nhiên) là phần lớn sự khiếu nại xảy ra liên tiếp.

1. Entropy

Entropy xuất hiện lần đầu tiên trong cơ học tập thống kê lại (Boltzmann Entropy), Shannon ban đầu tìm thấy Entropy và viết tên nó là “độ bất xác định” (Uncertainty thế bởi Entropy), cuối cùng với lời khulặng của John Von Neumann cái thương hiệu này được cất giữ.

Về bản chất Entropy chính là vừa phải đọc tin của thay đổi tình cờ rời rạc!

Entropy
Với biến chuyển bỗng dưng tách rốc $X$ dấn những quý giá $ left x_1,...,x_n ight $ với hàm kăn năn xác suất pmf (probability mass function) $Pr(X)$ thì Entropy của $X$ là:$$ extH(X) = mathbbE( extI(X)) = sum_i=1^nPr(x_i) extI(x_i)=sum_i=1^nPr(x_i) log_bfrac1Pr(x_i)$$ Hay nói giải pháp khác: $$ extH(X) = - sum_i=1^nPr(x_i) log_bPr(x_i)$$ Với $b$ là cơ số được lựa chọn dựa trên đơn vị công bố sử dụng. Entropy thông tin (nói một cách khác Entropy nhị phân) là hàm Entropy với cơ số $b=2$. Đôi thời gian để ký hiệu tiện nghi cùng dể quan sát hơn bạn có thể viết Entropy với vector phần trăm $p = (p_i,...p_n)$ cùng với $p_i = Pr(X=x_i)$ khi ấy $ extH(p)$: $$ extH(p) = - sum_i=1^n p_i log_bp_i$$

Nhìn vào phương pháp trên các bạn sẽ nhận ra một điều không đúng! Đó đó là $log_b(0)$ ko xác minh. Tuy nhiên họ lại có tính chất sau của số lượng giới hạn hàm số $-x log_bx$ cùng với $b$ là cơ số mang lại trước:

$$lim_x khổng lồ 0 -xcdot log_b x = 0$$

Chúng ta hoàn toàn có thể minh chứng bằng nguyên tắc L’Hospital với $f(x) = log_b x$ cùng $g(x) = 1 / x$ nlỗi sau:

$$lim_x o lớn 0 -xcdot log_b x = - lim_x lớn 0 fraclog_b x1 / x = - lim_x khổng lồ 0 fracf(x)g(x)= - lim_x lớn 0 fracf’(x)g’(x) $$

$$ = - lim_x lớn 0 frac1/ (xcdot ln b)-1 / x^2 = lim_x o 0 fracx^2xcdot ln b = lim_x o lớn 0 fracxln b = 0 $$

Vì cố cùng với các ngôi trường đúng theo phần trăm bằng $0$ hàm $log$ ko xác định thì qui ước rằng $0 log_b 0 = 0$ (hãy xem xét câu hỏi này vào xây dựng tính toán).

Một vài ba đặc thù quan trọng đặc biệt của Entropy:

Hàm entropy là một hàm không âm $ extH(X) ge 0$ vệt bằng xảy ra Lúc và chỉ lúc $p_i = 0$ với cùng một $i$ nào đó.Hàm Entropy cực lớn Lúc phân bố Tỷ Lệ là phân bố đa số, với $ extH (X) le log_b (n)$ vết bằng xẩy ra Khi và chỉ lúc $p_i = Pr(X=x_i) = frac1n$ với đa số $i$.

Entropy là độ đo bất khẳng định Lúc dự đân oán trạng thái của một biến đổi bỗng dưng $X$. Entropy đọc tin của đổi thay bất chợt $X$ càng cao (càng nhiều thông tin đựng trong thông điệp) thì càng khó khăn dự đân oán.


Chuyên mục: Tài liệu