ინფორმაციული ენტროპიის ცნება გულისხმობს მნიშვნელობის ალბათობის მასის ფუნქციის უარყოფით ლოგარითმს. ამრიგად, როდესაც მონაცემთა წყაროს აქვს მნიშვნელობა დაბალი ალბათობით (ანუ, როდესაც ხდება მოვლენა დაბალი ალბათობით), მოვლენა უფრო მეტ „ინფორმაციას“(„სიურპრიზს“) ატარებს, ვიდრე მაშინ, როდესაც წყაროს მონაცემს აქვს მნიშვნელობა უფრო მაღალი ალბათობით..
ამგვარად განსაზღვრული თითოეული მოვლენის მიერ გადაცემული ინფორმაციის რაოდენობა ხდება შემთხვევითი ცვლადი, რომლის მოსალოდნელი მნიშვნელობა არის ინფორმაციის ენტროპია. ზოგადად, ენტროპია ეხება არეულობას ან გაურკვევლობას და მისი განმარტება, რომელიც გამოიყენება ინფორმაციის თეორიაში, პირდაპირ ანალოგიურია სტატისტიკურ თერმოდინამიკაში გამოყენებული განმარტებისა. IE-ს კონცეფცია შემოიღო კლოდ შენონმა 1948 წელს თავის ნაშრომში "კომუნიკაციის მათემატიკური თეორია". აქედან გაჩნდა ტერმინი "შენონის ინფორმაციული ენტროპია".
განმარტება და სისტემა
მონაცემთა გადაცემის სისტემის ძირითადი მოდელი შედგება სამი ელემენტისგან: მონაცემთა წყარო, საკომუნიკაციო არხი და მიმღები,და, როგორც შენონი ამბობს, „საბაზისო კომუნიკაციის პრობლემა“არის ის, რომ მიმღებმა შეძლოს იმის იდენტიფიცირება, თუ რა მონაცემები იყო გენერირებული წყაროს მიერ არხზე მიღებული სიგნალის საფუძველზე. ენტროპია უზრუნველყოფს აბსოლუტურ შეზღუდვას შეკუმშული წყაროს მონაცემების უმოკლეს შესაძლო საშუალო უდანაკარგო კოდირების სიგრძეზე. თუ წყაროს ენტროპია საკომუნიკაციო არხის გამტარუნარიანობაზე ნაკლებია, მის მიერ წარმოქმნილი მონაცემები შეიძლება საიმედოდ გადაეცეს მიმღებს (ყოველ შემთხვევაში, თეორიულად, შესაძლოა უგულებელვყოთ ზოგიერთი პრაქტიკული მოსაზრება, როგორიცაა მონაცემთა გადაცემისთვის საჭირო სისტემის სირთულე. და დროის რაოდენობა, რომელიც შეიძლება დასჭირდეს მონაცემთა გადაცემას).
ინფორმაციის ენტროპია ჩვეულებრივ იზომება ბიტებში (ალტერნატიულად უწოდებენ "შანონებს") ან ზოგჯერ "ბუნებრივ ერთეულებს" (nats) ან ათობითი ადგილებში (ე.წ. "dits", "bans" ან "hartleys"). საზომი ერთეული დამოკიდებულია ლოგარითმის საფუძველზე, რომელიც გამოიყენება ენტროპიის დასადგენად.
თვისებები და ლოგარითმი
ლოგის ალბათობის განაწილება სასარგებლოა როგორც ენტროპიის საზომი, რადგან ის არის დანამატი დამოუკიდებელი წყაროებისთვის. მაგალითად, მონეტის სამართლიანი ფსონის ენტროპია არის 1 ბიტი, ხოლო m-მოცულობის ენტროპია არის m ბიტი. მარტივი წარმოდგენით, log2(n) ბიტები საჭიროა ცვლადის წარმოსაჩენად, რომელსაც შეუძლია მიიღოს n მნიშვნელობიდან ერთ-ერთი, თუ n არის 2-ის სიმძლავრე. თუ ეს მნიშვნელობები თანაბრად სავარაუდოა, ენტროპია (ბიტებში) არის ამ რიცხვის ტოლი. თუ ერთ-ერთი მნიშვნელობა უფრო სავარაუდოა, ვიდრე სხვები, დაკვირვება, რომ ეს არისმნიშვნელობა ხდება, ნაკლებად ინფორმატიულია, ვიდრე თუ რაიმე ნაკლებად ზოგადი შედეგი იქნებოდა. პირიქით, უფრო იშვიათი მოვლენები გვაწვდიან თვალთვალის დამატებით ინფორმაციას.
რადგან ნაკლებად სავარაუდო მოვლენებზე დაკვირვება ნაკლებად ხშირია, არაფერია საერთო, რომ არათანაბრად განაწილებული მონაცემებიდან მიღებული ენტროპია (მიიჩნეულია საშუალო ინფორმაციად) ყოველთვის ნაკლებია ან ტოლია log2(n-ის). ენტროპია არის ნული, როდესაც განისაზღვრება ერთი შედეგი.
შენონის ინფორმაციის ენტროპია რაოდენობრივად განსაზღვრავს ამ მოსაზრებებს, როდესაც ცნობილია ძირითადი მონაცემების ალბათობის განაწილება. დაკვირვებული მოვლენების მნიშვნელობა (შეტყობინებების მნიშვნელობა) შეუსაბამოა ენტროპიის განმარტებაში. ეს უკანასკნელი ითვალისწინებს მხოლოდ კონკრეტული მოვლენის ნახვის ალბათობას, ამიტომ ინფორმაცია, რომელიც მას ასახავს, არის მონაცემები შესაძლებლობების ძირითადი განაწილების შესახებ და არა თავად მოვლენების მნიშვნელობის შესახებ. ინფორმაციის ენტროპიის თვისებები იგივე რჩება, როგორც ზემოთ აღწერილი.
ინფორმაციის თეორია
ინფორმაციის თეორიის ძირითადი იდეა არის ის, რომ რაც უფრო მეტი იცის თემის შესახებ, მით ნაკლები ინფორმაციის მიღება შეიძლება მის შესახებ. თუ მოვლენა ძალიან სავარაუდოა, გასაკვირი არ არის, როდესაც ის ხდება და, შესაბამისად, მცირე ახალ ინფორმაციას გვაწვდის. პირიქით, თუ მოვლენა წარმოუდგენელი იყო, გაცილებით ინფორმატიული იყო, რომ მოვლენა მოხდა. აქედან გამომდინარე, დატვირთვა არის მოვლენის შებრუნებული ალბათობის მზარდი ფუნქცია (1 / p).
ახლა თუ მეტი მოვლენა მოხდება, ენტროპიაზომავს საშუალო ინფორმაციის შინაარსს, რომელსაც შეიძლება მოელოდეთ, თუ რომელიმე მოვლენა მოხდება. ეს ნიშნავს, რომ საყრდენის ჩამოსხმას უფრო მეტი ენტროპია აქვს, ვიდრე მონეტის სროლას, რადგან ყოველი კრისტალის შედეგს აქვს უფრო დაბალი ალბათობა, ვიდრე თითოეული მონეტის შედეგი.
ფუნქციები
ამგვარად, ენტროპია არის მდგომარეობის არაპროგნოზირებადობის ან, იგივე, მისი საშუალო ინფორმაციის შინაარსის საზომი. ამ ტერმინების ინტუიციური გაგებისთვის, განვიხილოთ პოლიტიკური გამოკითხვის მაგალითი. როგორც წესი, ასეთი გამოკითხვები იმიტომ ხდება, რომ, მაგალითად, არჩევნების შედეგები ჯერ არ არის ცნობილი.
სხვა სიტყვებით რომ ვთქვათ, კვლევის შედეგები შედარებით არაპროგნოზირებადია და ფაქტობრივად, მისი ჩატარება და მონაცემების შესწავლა გარკვეულ ახალ ინფორმაციას იძლევა; ისინი უბრალოდ სხვადასხვა ხერხია იმის სათქმელად, რომ გამოკითხვის შედეგების წინა ენტროპია დიდია.
ახლა განვიხილოთ შემთხვევა, როდესაც იგივე გამოკითხვა მეორედ ტარდება პირველიდან მალევე. ვინაიდან პირველი გამოკითხვის შედეგი უკვე ცნობილია, მეორე კვლევის შედეგები შეიძლება კარგად იყოს პროგნოზირებული და შედეგები არ უნდა შეიცავდეს ბევრ ახალ ინფორმაციას; ამ შემთხვევაში, მეორე გამოკითხვის შედეგის აპრიორი ენტროპია მცირეა პირველთან შედარებით.
მონეტის გადაყრა
ახლა განვიხილოთ მონეტის გადაბრუნების მაგალითი. თუ ვივარაუდებთ, რომ კუდების ალბათობა იგივეა, რაც თავების ალბათობა, მონეტის გადაყრის ენტროპია ძალიან მაღალია, რადგან ეს არის სისტემის ინფორმაციული ენტროპიის თავისებური მაგალითი.
ეს იმიტომრომ შეუძლებელია იმის წინასწარმეტყველება, რომ მონეტის შედეგი დროზე ადრე გადააგდებს: თუ არჩევანის გაკეთება მოგვიწევს, საუკეთესო რაც შეგვიძლია გავაკეთოთ არის ვიწინასწარმეტყველოთ, რომ მონეტა კუდებზე დაეცემა და ეს წინასწარმეტყველება სწორი იქნება ალბათობით. 1 / 2. მონეტის ასეთ გადაგდებას აქვს ერთი ბიტიანი ენტროპია, რადგან არსებობს ორი შესაძლო შედეგი, რომელიც ხდება თანაბარი ალბათობით და რეალური შედეგის შესწავლა შეიცავს ერთ ბიტ ინფორმაციას.
პირიქით, მონეტის გადატრიალებას ორივე მხრიდან კუდებითა და თავების გარეშე აქვს ნულოვანი ენტროპია, რადგან მონეტა ყოველთვის დაჯდება ამ ნიშანზე და შედეგის წინასწარმეტყველება შესანიშნავად შეიძლება.
დასკვნა
თუ შეკუმშვის სქემა უზარმაზარია, რაც იმას ნიშნავს, რომ თქვენ ყოველთვის შეგიძლიათ აღადგინოთ მთელი ორიგინალური შეტყობინება დეკომპრესიით, მაშინ შეკუმშულ შეტყობინებას აქვს იგივე რაოდენობის ინფორმაცია, როგორც ორიგინალი, მაგრამ გადაიცემა ნაკლები სიმბოლოებით. ანუ მას აქვს მეტი ინფორმაცია ან უფრო მაღალი ენტროპია თითო სიმბოლოზე. ეს ნიშნავს, რომ შეკუმშულ შეტყობინებას ნაკლები სიჭარბე აქვს.
უხეშად რომ ვთქვათ, შენონის კოდირების კოდირების თეორემა აცხადებს, რომ უზარმაზარ შეკუმშვის სქემას არ შეუძლია შეამციროს შეტყობინებები საშუალოდ ერთ ბიტზე მეტი ინფორმაციის მისაღებად თითო ბიტზე, მაგრამ შეიძლება მიღწეული იყოს ნებისმიერი მნიშვნელობის ერთ ბიტზე ნაკლები ინფორმაცია თითო ბიტზე. შეტყობინებები შესაბამისი კოდირების სქემის გამოყენებით. შეტყობინების ენტროპია ბიტებში გამრავლებული მის სიგრძეზე არის საზომი იმისა, თუ რამდენ ზოგად ინფორმაციას შეიცავს იგი.