სტატისტიკური მოდელირება: მეთოდები, აღწერა, გამოყენება

Სარჩევი:

სტატისტიკური მოდელირება: მეთოდები, აღწერა, გამოყენება
სტატისტიკური მოდელირება: მეთოდები, აღწერა, გამოყენება
Anonim

სტატისტიკურ მოდელში ჩადებული ვარაუდები აღწერს ალბათობათა განაწილების ერთობლიობას, რომელთაგან ზოგიერთი სავარაუდოა, რომ ადეკვატურად აახლოებს განაწილებას. განსაზღვრებიდან შეირჩევა მონაცემთა კონკრეტული ნაკრები. სტატისტიკური მოდელირების თანდაყოლილი ალბათობის განაწილება არის ის, რაც განასხვავებს სტატისტიკურ მოდელებს სხვა, არასტატისტიკური, მათემატიკური მოდელებისგან.

Image
Image

კავშირი მათემატიკასთან

ეს სამეცნიერო მეთოდი ძირითადად მათემატიკაშია დაფუძნებული. სისტემების სტატისტიკური მოდელირება, როგორც წესი, მოცემულია მათემატიკური განტოლებებით, რომლებიც აკავშირებს ერთ ან მეტ შემთხვევით ცვლადს და შესაძლოა სხვა არა შემთხვევით ცვლადებს. ამრიგად, სტატისტიკური მოდელი არის „თეორიის ფორმალური წარმოდგენა“(ჰერმან ადერი, ციტირებს კენეტ ბოლენს).

ყველა სტატისტიკური ჰიპოთეზის ტესტი და ყველა სტატისტიკური შეფასება მიღებულია სტატისტიკური მოდელებიდან. უფრო ზოგადად, სტატისტიკური მოდელები სტატისტიკური დასკვნის საფუძვლის ნაწილია.

სტატისტიკური მეთოდებიმოდელირება

არაფორმალურად, სტატისტიკური მოდელი შეიძლება განვიხილოთ, როგორც სტატისტიკური დაშვება (ან სტატისტიკური ვარაუდების ნაკრები) გარკვეული თვისებით: ეს დაშვება საშუალებას გვაძლევს გამოვთვალოთ ნებისმიერი მოვლენის ალბათობა. მაგალითად, განვიხილოთ ჩვეულებრივი ექვსმხრივი კამათელი. ჩვენ შევისწავლით ორ განსხვავებულ სტატისტიკურ ვარაუდს ძვლის შესახებ.

პირველი სტატისტიკური დაშვება წარმოადგენს სტატისტიკურ მოდელს, რადგან მხოლოდ ერთი დაშვებით შეგვიძლია გამოვთვალოთ ნებისმიერი მოვლენის ალბათობა. ალტერნატიული სტატისტიკური დაშვება არ წარმოადგენს სტატისტიკურ მოდელს, რადგან მხოლოდ ერთი დაშვებით ჩვენ არ შეგვიძლია გამოვთვალოთ თითოეული მოვლენის ალბათობა.

ტიპიური სტატისტიკური მოდელი
ტიპიური სტატისტიკური მოდელი

ზემოხსენებულ მაგალითში პირველი დაშვებით, მარტივია მოვლენის ალბათობის გამოთვლა. თუმცა, ზოგიერთ სხვა მაგალითში, გაანგარიშება შეიძლება იყოს რთული ან თუნდაც არაპრაქტიკული (მაგალითად, მას შეიძლება დასჭირდეს მილიონობით წლის გამოთვლა). დაშვებისთვის, რომელიც წარმოადგენს სტატისტიკურ მოდელს, ეს სირთულე მისაღებია: გაანგარიშების შესრულება არ უნდა იყოს პრაქტიკულად განხორციელებული, მხოლოდ თეორიულად შესაძლებელი.

მოდელების მაგალითები

დავუშვათ, რომ გვყავს სკოლის მოსწავლეების მოსახლეობა თანაბრად განაწილებული ბავშვებით. ბავშვის სიმაღლე სტოქასტურად იქნება დაკავშირებული ასაკთან: მაგალითად, როდესაც ვიცით, რომ ბავშვი 7 წლისაა, ეს გავლენას ახდენს იმაზე, რომ ბავშვი იქნება 5 ფუტი (დაახლოებით 152 სმ). ჩვენ შეგვიძლია ამ ურთიერთობის ფორმალიზება ხაზოვანი რეგრესიის მოდელში, მაგალითად: ზრდა=b0 + b1agei+ εi, სადაც b0 არის კვეთა, b1 არის პარამეტრი, რომლითაც მრავლდება ასაკი ზრდის პროგნოზის მიღებისას, εi არის ცდომილების ვადა. ეს ნიშნავს, რომ სიმაღლე წინასწარმეტყველებს ასაკს გარკვეული შეცდომით.

მოქმედი მოდელი უნდა შეესაბამებოდეს მონაცემთა ყველა წერტილს. ასე რომ, სწორი ხაზი (heighti=b0 + b1agei) არ შეიძლება იყოს განტოლება მონაცემთა მოდელისთვის - თუ ის ზუსტად არ შეესაბამება ყველა მონაცემთა წერტილს, ანუ ყველა მონაცემთა წერტილი იდეალურად დევს ხაზზე. შეცდომის ტერმინი εi უნდა იყოს შეტანილი განტოლებაში, რათა მოდელი მოერგოს მონაცემთა ყველა წერტილს.

გენდერული სტატისტიკა
გენდერული სტატისტიკა

სტატისტიკური დასკვნის გასაკეთებლად, ჯერ უნდა ვივარაუდოთ εi-სთვის ალბათობის ზოგიერთი განაწილება. მაგალითად, შეგვიძლია ვივარაუდოთ, რომ εi-ის განაწილება არის გაუსიანი, ნულოვანი საშუალო. ამ შემთხვევაში, მოდელს ექნება 3 პარამეტრი: b0, b1 და გაუსის განაწილების ვარიაცია.

ზოგადი აღწერა

სტატისტიკური მოდელი არის მათემატიკური მოდელის სპეციალური კლასი. რაც განასხვავებს სტატისტიკურ მოდელს სხვა მათემატიკური მოდელებისგან არის ის, რომ ის არადეტერმინისტულია. იგი გამოიყენება სტატისტიკური მონაცემების მოდელირებისთვის. ამრიგად, მათემატიკური განტოლებებით განსაზღვრულ სტატისტიკურ მოდელში ზოგიერთ ცვლადს არ აქვს კონკრეტული მნიშვნელობები, სამაგიეროდ აქვს ალბათობის განაწილება; ანუ ზოგიერთი ცვლადი სტოქასტურია. ზემოთ მოცემულ მაგალითში ε არის სტოქასტური ცვლადი; ამ ცვლადის გარეშე მოდელი იყოგანმსაზღვრელი იქნებოდა.

სტატისტიკური მოდელები ხშირად გამოიყენება სტატისტიკურ ანალიზსა და მოდელირებაში, მაშინაც კი, თუ მოდელირებული ფიზიკური პროცესი დეტერმინისტულია. მაგალითად, მონეტების სროლა პრინციპში დეტერმინისტული პროცესია; თუმცა ის ჩვეულებრივ მოდელირებულია როგორც სტოქასტური (ბერნულის პროცესის მეშვეობით).

დათბობის სტატისტიკა
დათბობის სტატისტიკა

პარამეტრული მოდელები

პარამეტრული მოდელები ყველაზე ხშირად გამოყენებული სტატისტიკური მოდელებია. ნახევრად პარამეტრულ და არაპარამეტრულ მოდელებთან დაკავშირებით, სერ დევიდ კოქსმა თქვა:”ისინი ჩვეულებრივ შეიცავს ნაკლებ ვარაუდს განაწილების სტრუქტურისა და ფორმის შესახებ, მაგრამ ჩვეულებრივ შეიცავს ძლიერ დამოუკიდებლობის ვარაუდებს”. ყველა სხვა ხსენებული მოდელის მსგავსად, ისინიც ხშირად გამოიყენება მათემატიკური მოდელირების სტატისტიკურ მეთოდში.

მრავალსაფეხურიანი მოდელები

მულტიდონიანი მოდელები (ასევე ცნობილია, როგორც იერარქიული ხაზოვანი მოდელები, წყობილი მონაცემთა მოდელები, შერეული მოდელები, შემთხვევითი კოეფიციენტები, შემთხვევითი ეფექტების მოდელები, შემთხვევითი პარამეტრის მოდელები ან დანაწევრებული მოდელები) არის სტატისტიკური პარამეტრების მოდელები, რომლებიც განსხვავდება ერთზე მეტ დონეზე. მაგალითი არის სტუდენტის მიღწევის მოდელი, რომელიც შეიცავს მეტრიკას ცალკეული სტუდენტებისთვის, ასევე მეტრიკას იმ საკლასო ოთახებისთვის, რომლებშიც სტუდენტები დაჯგუფებულები არიან. ეს მოდელები შეიძლება მივიჩნიოთ როგორც ხაზოვანი მოდელების განზოგადება (კერძოდ, წრფივი რეგრესია), თუმცა ისინი ასევე შეიძლება გავრცელდეს არაწრფივ მოდელებზეც. ეს მოდელები გახდაბევრად უფრო პოპულარული მას შემდეგ, რაც საკმარისი გამოთვლითი ძალა და პროგრამული უზრუნველყოფა გახდა ხელმისაწვდომი.

სეგმენტის სტატისტიკა
სეგმენტის სტატისტიკა

მრავალსაფეხურიანი მოდელები განსაკუთრებით შეეფერება კვლევით პროექტებს, სადაც მონაწილეთა მონაცემები ორგანიზებულია ერთზე მეტ დონეზე (მაგ., ჩადგმული მონაცემები). ანალიზის ერთეულები, როგორც წესი, არიან ინდივიდები (დაბალ დონეზე), რომლებიც მოთავსებულია კონტექსტში/აგრეგატულ ერთეულებში (უფრო მაღალ დონეზე). მიუხედავად იმისა, რომ მრავალდონიან მოდელებში მონაცემთა ყველაზე დაბალი დონე ჩვეულებრივ ინდივიდუალურია, ინდივიდების განმეორებითი გაზომვები ასევე შეიძლება ჩაითვალოს. ამრიგად, მრავალდონიანი მოდელები უზრუნველყოფენ ანალიზის ალტერნატიულ ტიპს ერთვარიანტული ან მრავალვარიანტული განმეორებითი ზომების ანალიზისთვის. შეიძლება ჩაითვალოს ინდივიდუალური განსხვავებები ზრდის მრუდებში. გარდა ამისა, მრავალდონიანი მოდელები შეიძლება გამოყენებულ იქნას, როგორც ANCOVA-ს ალტერნატივა, სადაც დამოკიდებული ცვლადის ქულები მორგებულია კოვარიატებისთვის (მაგ. ინდივიდუალური განსხვავებები) მკურნალობის განსხვავებების ტესტირებამდე. მრავალდონიანი მოდელებს შეუძლიათ გააანალიზონ ეს ექსპერიმენტები ANCOVA-ს მიერ მოთხოვნილი ერთიანი რეგრესიის ფერდობების დაშვების გარეშე.

მრავალსაფეხურიანი მოდელების გამოყენება შესაძლებელია მრავალი დონის მონაცემებისთვის, თუმცა ორდონიანი მოდელები ყველაზე გავრცელებულია და ამ სტატიის დარჩენილი ნაწილი მათზეა ფოკუსირებული. დამოკიდებული ცვლადი უნდა იქნას შესწავლილი ანალიზის ყველაზე დაბალ დონეზე.

ატმოსფერული წნევის გრაფიკი
ატმოსფერული წნევის გრაფიკი

მოდელის შერჩევა

მოდელის შერჩევაარის სტატისტიკური მოდელირების ფარგლებში განხორციელებული მონაცემების გათვალისწინებით კანდიდატი მოდელების ნაკრებიდან არჩევის ამოცანა. უმარტივეს შემთხვევებში განიხილება უკვე არსებული მონაცემთა ნაკრები. თუმცა, ამოცანა შეიძლება მოიცავდეს ექსპერიმენტების შემუშავებას ისე, რომ შეგროვებული მონაცემები კარგად შეეფერება მოდელის შერჩევის ამოცანას. მსგავსი პროგნოზირების ან ახსნის უნარის მქონე კანდიდატი მოდელების გათვალისწინებით, უმარტივესი მოდელი, სავარაუდოდ, საუკეთესო არჩევანია (ოკამის საპარსი).

Konishi & Kitagawa ამბობს, "სტატისტიკური დასკვნის პრობლემების უმეტესობა შეიძლება ჩაითვალოს სტატისტიკურ მოდელებთან დაკავშირებული პრობლემები." ანალოგიურად, კოქსმა თქვა: „როგორ ხდება საგნის სტატისტიკურ მოდელში გადატანა, ხშირად ანალიზის ყველაზე მნიშვნელოვანი ნაწილია“.

მოდელის შერჩევა ასევე შეიძლება ეხებოდეს რამდენიმე წარმომადგენლობითი მოდელის არჩევის პრობლემას გამოთვლითი მოდელების დიდი ნაკრებიდან გადაწყვეტილების ან ოპტიმიზაციის მიზნებისთვის გაურკვევლობის პირობებში.

გრაფიკული ნიმუშები

გრაფიკული მოდელი, ან სავარაუდო გრაფიკული მოდელი, (PGM) ან სტრუქტურირებული ალბათური მოდელი, არის ალბათური მოდელი, რომლის გრაფიკი გამოხატავს შემთხვევით ცვლადებს შორის პირობითი ურთიერთობის სტრუქტურას. ისინი ჩვეულებრივ გამოიყენება ალბათობის თეორიაში, სტატისტიკაში (განსაკუთრებით ბაიესის სტატისტიკაში) და მანქანათმცოდნეობაში.

სტატისტიკური მოდელი გრაფიკით
სტატისტიკური მოდელი გრაფიკით

ეკონომეტრიული მოდელები

ეკონომეტრიული მოდელები არის სტატისტიკური მოდელები, რომლებიც გამოიყენებაეკონომეტრია. ეკონომეტრიული მოდელი განსაზღვრავს სტატისტიკურ კავშირებს, რომლებიც, სავარაუდოდ, არსებობს კონკრეტულ ეკონომიკურ მოვლენასთან დაკავშირებულ სხვადასხვა ეკონომიკურ რაოდენობას შორის. ეკონომეტრიული მოდელი შეიძლება იყოს მიღებული დეტერმინისტული ეკონომიკური მოდელიდან, რომელიც ითვალისწინებს გაურკვევლობას, ან ეკონომიკური მოდელიდან, რომელიც თავისთავად სტოქასტურია. თუმცა, ასევე შესაძლებელია ეკონომეტრიული მოდელების გამოყენება, რომლებიც არ არის მიბმული რომელიმე კონკრეტულ ეკონომიკურ თეორიასთან.

გირჩევთ: