სტატისტიკური მოდელი: მეთოდის არსი, კონსტრუქცია და ანალიზი

Სარჩევი:

სტატისტიკური მოდელი: მეთოდის არსი, კონსტრუქცია და ანალიზი
სტატისტიკური მოდელი: მეთოდის არსი, კონსტრუქცია და ანალიზი
Anonim

სტატისტიკური მოდელი არის მათემატიკური პროექცია, რომელიც განასახიერებს სხვადასხვა ვარაუდების ერთობლიობას ზოგიერთი ნიმუშის მონაცემების გენერირების შესახებ. ტერმინი ხშირად წარმოდგენილია ბევრად იდეალიზებული ფორმით.

სტატისტიკურ მოდელში გამოხატული ვარაუდები აჩვენებს ალბათობის განაწილების ერთობლიობას. რომელთაგან ბევრი მიზნად ისახავს სწორად მიახლოებას იმ განაწილებისთვის, საიდანაც ხდება ინფორმაციის კონკრეტული ნაკრები. სტატისტიკური მოდელების თანდაყოლილი ალბათობის განაწილება არის ის, რაც განასხვავებს პროექციას სხვა მათემატიკური მოდიფიკაციებისგან.

ზოგადი პროგნოზი

სტატისტიკური პროცესის მოდელები
სტატისტიკური პროცესის მოდელები

მათემატიკური მოდელი არის სისტემის აღწერა გარკვეული ცნებებისა და ენის გამოყენებით. ისინი მიმართავენ საბუნებისმეტყველო მეცნიერებებს (როგორიცაა ფიზიკა, ბიოლოგია, დედამიწაზე მეცნიერება, ქიმია) და საინჟინრო დისციპლინები (როგორიცაა კომპიუტერული მეცნიერება, ელექტროინჟინერია), ასევე სოციალურ მეცნიერებებში (როგორიცაა ეკონომიკა, ფსიქოლოგია, სოციოლოგია, პოლიტიკური მეცნიერება).

მოდელს შეუძლია დაგეხმაროთ სისტემის ახსნაში დაშეისწავლეთ სხვადასხვა კომპონენტის გავლენა და გააკეთეთ ქცევის წინასწარმეტყველება.

მათემატიკურ მოდელებს შეიძლება ჰქონდეს მრავალი ფორმა, მათ შორის დინამიური სისტემები, სტატისტიკური პროგნოზები, დიფერენციალური განტოლებები ან თამაშის თეორიული პარამეტრები. ეს და სხვა ტიპები შეიძლება ემთხვეოდეს ერთმანეთს და ეს მოდელი მოიცავს ბევრ აბსტრაქტულ სტრუქტურას. ზოგადად, მათემატიკური პროგნოზები ასევე შეიძლება შეიცავდეს ლოგიკურ კომპონენტებს. ხშირ შემთხვევაში, სამეცნიერო სფეროს ხარისხი დამოკიდებულია იმაზე, თუ რამდენად ეთანხმება თეორიულად შემუშავებული მათემატიკური მოდელები განმეორებითი ექსპერიმენტების შედეგებს. თეორიულ პროცესებსა და ექსპერიმენტულ გაზომვებს შორის შეთანხმების არარსებობა ხშირად იწვევს მნიშვნელოვან მიღწევებს უკეთესი თეორიების შემუშავებასთან ერთად.

ფიზიკურ მეცნიერებებში ტრადიციული მათემატიკური მოდელი შეიცავს შემდეგი ელემენტების დიდ რაოდენობას:

  • მართვის განტოლებები.
  • დამატებითი ქვემოდელები.
  • განტოლებების განსაზღვრა.
  • შემადგენელი განტოლებები.
  • ვარაუდები და შეზღუდვები.
  • საწყისი და სასაზღვრო პირობები.
  • კლასიკური შეზღუდვები და კინემატიკური განტოლებები.

ფორმულა

სტატისტიკური მოდელი, როგორც წესი, დადგენილია მათემატიკური განტოლებებით, რომლებიც აერთიანებს ერთ ან მეტ შემთხვევით ცვლადს და, შესაძლოა, სხვა ბუნებრივ ცვლადებს. ანალოგიურად, პროექცია განიხილება "კონცეფციის ფორმალურ კონცეფციად."

ყველა სტატისტიკური ჰიპოთეზის ტესტირება და სტატისტიკური შეფასება მიღებულია მათემატიკური მოდელებიდან.

შესავალი

სტატისტიკური მათემატიკური მოდელები
სტატისტიკური მათემატიკური მოდელები

არაფორმალურად, სტატისტიკური მოდელი შეიძლება განიხილებოდეს, როგორც დაშვება (ან დაშვებების ნაკრები) კონკრეტული თვისებით: ის საშუალებას აძლევს ადამიანს გამოთვალოს რაიმე მოვლენის ალბათობა. მაგალითად, განვიხილოთ ჩვეულებრივი ექვსმხრივი კამათელი. ძვლის შესახებ ორი განსხვავებული სტატისტიკური ვარაუდი უნდა იქნას შესწავლილი.

პირველი ვარაუდია:

თითოეული კამათელისთვის, ერთ-ერთი რიცხვის (1, 2, 3, 4, 5 და 6) მიღების ალბათობაა: 1/6.

ამ დაშვებიდან შეგვიძლია გამოვთვალოთ ორივე კამათლის ალბათობა: 1:1/6×1/6=1/36.

უფრო ზოგადად, თქვენ შეგიძლიათ გამოთვალოთ ნებისმიერი მოვლენის ალბათობა. თუმცა, უნდა გვესმოდეს, რომ შეუძლებელია რაიმე სხვა არატრივიალური მოვლენის ალბათობის გამოთვლა.

მხოლოდ პირველი მოსაზრება აგროვებს სტატისტიკურ მათემატიკურ მოდელს: იმის გამო, რომ მხოლოდ ერთი დაშვებით არის შესაძლებელი თითოეული მოქმედების ალბათობის დადგენა.

ზემოხსენებულ ნიმუშში თავდაპირველი ნებართვით ადვილია მოვლენის შესაძლებლობის დადგენა. სხვა მაგალითებით, გაანგარიშება შეიძლება იყოს რთული ან თუნდაც არარეალური (მაგალითად, მას შეიძლება დასჭირდეს მრავალი წლის გამოთვლები). სტატისტიკური ანალიზის მოდელის შემქმნელისთვის ასეთი სირთულე მიუღებლად ითვლება: გამოთვლების განხორციელება არ უნდა იყოს პრაქტიკულად შეუძლებელი და თეორიულად შეუძლებელი.

ფორმალური განმარტება

მათემატიკური თვალსაზრისით, სისტემის სტატისტიკური მოდელი ჩვეულებრივ განიხილება როგორც წყვილი (S, P), სადაც S არისშესაძლო დაკვირვებების სიმრავლე, ანუ ნიმუშის სივრცე და P არის ალბათობის განაწილების სიმრავლე S.

-ზე

ამ განმარტების ინტუიცია ასეთია. ვარაუდობენ, რომ არსებობს "ჭეშმარიტი" ალბათობის განაწილება, რომელიც გამოწვეულია პროცესით, რომელიც წარმოქმნის გარკვეულ მონაცემებს.

Set

ეს არის ის, ვინც განსაზღვრავს მოდელის პარამეტრებს. პარამეტრიზაცია ზოგადად მოითხოვს სხვადასხვა მნიშვნელობებს, რათა გამოიწვიოს სხვადასხვა განაწილება, ანუ

მოდელის შედეგი
მოდელის შედეგი

უნდა შენარჩუნდეს (სხვა სიტყვებით რომ ვთქვათ, ეს უნდა იყოს ინექციური). პარამეტრიზაცია, რომელიც აკმაყოფილებს მოთხოვნებს, ნათქვამია, რომ იდენტიფიცირებადია.

მაგალითი

სტატისტიკის გრაფიკი
სტატისტიკის გრაფიკი

ვვარაუდობთ, რომ არის სხვადასხვა ასაკის სტუდენტების გარკვეული რაოდენობა. ბავშვის სიმაღლე სტოქასტურად იქნება დაკავშირებული დაბადების წელს: მაგალითად, როცა სკოლის მოსწავლე 7 წლისაა, ეს გავლენას ახდენს ზრდის ალბათობაზე, მხოლოდ ისე, რომ ადამიანი 3 სანტიმეტრზე მაღალი იქნება.

შეგიძლიათ ამ მიდგომის ფორმალიზება სწორი ხაზის რეგრესიის მოდელად, მაგალითად, შემდეგნაირად: სიმაღლე i=b 0 + b 1agei + εi, სადაც b 0 არის კვეთა, b 1 არის პარამეტრი, რომლის მიხედვითაც ასაკი მრავლდება სიმაღლის მონიტორინგის მიღებისას. ეს არის შეცდომის ტერმინი. ანუ, იგი ვარაუდობს, რომ სიმაღლე წინასწარმეტყველებს ასაკს გარკვეული შეცდომით.

მოქმედი ფორმა უნდა შეესაბამებოდეს ყველა საინფორმაციო პუნქტს. ამრიგად, მართკუთხა მიმართულება (დონე i=b 0 + b 1agei) არ შეიძლება იყოს განტოლება მონაცემთა მოდელისთვის - თუ ის მკაფიოდ არ პასუხობს აბსოლუტურად ყველა წერტილს. ე.იგამონაკლისის გარეშე, ყველა ინფორმაცია უნაკლოდ დევს ხაზზე. შეცდომის ზღვარი εi უნდა იყოს შეყვანილი განტოლებაში ისე, რომ ფორმა ემთხვევა ინფორმაციის აბსოლუტურად ყველა ელემენტს.

სტატისტიკური დასკვნის გასაკეთებლად, ჯერ უნდა ვივარაუდოთ ε i-სთვის ალბათობის ზოგიერთი განაწილება. მაგალითად, შეიძლება ვივარაუდოთ, რომ ε i-ის განაწილებას აქვს გაუსის ფორმა ნულოვანი საშუალო. ამ შემთხვევაში მოდელს ექნება 3 პარამეტრი: b 0, b 1 და გაუსის განაწილების ვარიაცია.

შეგიძლიათ ოფიციალურად მიუთითოთ მოდელი, როგორც (S, P).

ამ მაგალითში მოდელი განისაზღვრება S-ის მითითებით და ამიტომ შეიძლება გამოვიტანოთ რამდენიმე ვარაუდი P-ის შესახებ. არსებობს ორი ვარიანტი:

ეს ზრდა შეიძლება მიახლოებული იყოს ასაკის წრფივი ფუნქციით;

რომ შეცდომები მიახლოებაში განაწილებულია როგორც გაუსიანში.

ზოგადი შენიშვნები

მოდელების სტატისტიკური პარამეტრები არის მათემატიკური პროექციის სპეციალური კლასი. რით განსხვავდება ერთი სახეობა მეორისგან? ასე რომ, სტატისტიკური მოდელი არადეტერმინისტულია. ამრიგად, მასში, მათემატიკური განტოლებისგან განსხვავებით, გარკვეულ ცვლადებს არ აქვთ გარკვეული მნიშვნელობები, სამაგიეროდ აქვთ შესაძლებლობების განაწილება. ანუ ცალკეული ცვლადები განიხილება სტოქასტურად. ზემოთ მოცემულ მაგალითში ε არის სტოქასტური ცვლადი. ამის გარეშე პროექცია განმსაზღვრელი იქნებოდა.

სტატისტიკური მოდელის აგება ხშირად გამოიყენება, თუნდაც მატერიალური პროცესი განმსაზღვრელი იყოს. მაგალითად, მონეტების სროლა, პრინციპში, წინასწარ განსაზღვრული ქმედებაა.თუმცა, ეს ჯერ კიდევ უმეტეს შემთხვევაში მოდელირებულია როგორც სტოქასტური (ბერნულის პროცესის მეშვეობით).

კონიშისა და კიტაგავას მიხედვით, სტატისტიკური მოდელის სამი მიზანი არსებობს:

  • პროგნოზები.
  • ინფორმაციის მოპოვება.
  • სტოქასტური სტრუქტურების აღწერა.

პროექციის ზომა

ვუშვათ, რომ არსებობს სტატისტიკური პროგნოზირების მოდელი, მოდელს ეწოდება პარამეტრული, თუ O-ს აქვს სასრული განზომილება. გამოსავალში უნდა დაწეროთ, რომ

მოდელის განსხვავება
მოდელის განსხვავება

სადაც k არის დადებითი მთელი რიცხვი (R არის ნებისმიერი რეალური რიცხვი). აქ k ეწოდება მოდელის განზომილებას.

მაგალითად, შეგვიძლია ვივარაუდოთ, რომ ყველა მონაცემი მომდინარეობს გაუსიანური განაწილებიდან:

სტატისტიკის ფორმულა
სტატისტიკის ფორმულა

ამ მაგალითში k-ის განზომილება არის 2.

და კიდევ ერთი მაგალითი, მონაცემები შეიძლება ვივარაუდოთ, რომ შედგება (x, y) წერტილებისგან, რომლებიც ვარაუდობენ, რომ განაწილებულია სწორი ხაზით გაუსის ნარჩენებთან (ნულოვანი საშუალო). მაშინ სტატისტიკური ეკონომიკური მოდელის განზომილება უდრის 3-ს: ხაზის გადაკვეთა, მისი დახრილობა და ნარჩენების განაწილების სხვაობა. უნდა აღინიშნოს, რომ გეომეტრიაში სწორ ხაზს აქვს განზომილება 1.

მიუხედავად იმისა, რომ ზემოთ მოცემული მნიშვნელობა ტექნიკურად ერთადერთი პარამეტრია, რომელსაც აქვს განზომილება k, ის ზოგჯერ განიხილება, რომ შეიცავს k განსხვავებულ მნიშვნელობებს. მაგალითად, ერთგანზომილებიანი გაუსის განაწილებით, O არის ერთადერთი პარამეტრი ზომით 2, მაგრამ ზოგჯერ ითვლება, რომ შეიცავს ორს.ინდივიდუალური პარამეტრი - საშუალო მნიშვნელობა და სტანდარტული გადახრა.

სტატისტიკური პროცესის მოდელი არაპარამეტრულია, თუ O მნიშვნელობების ნაკრები უსასრულო განზომილებიანია. ის ასევე ნახევრად პარამეტრულია, თუ მას აქვს როგორც სასრულ-განზომილებიანი, ასევე უსასრულო-განზომილებიანი პარამეტრები. ფორმალურად, თუ k არის O-ს განზომილება და n არის ნიმუშების რაოდენობა, ნახევრად პარამეტრულ და არაპარამეტრულ მოდელებს აქვთ

მოდელის ფორმულა
მოდელის ფორმულა

მაშინ მოდელი ნახევრად პარამეტრულია. წინააღმდეგ შემთხვევაში, პროექცია არაპარამეტრულია.

პარამეტრული მოდელები ყველაზე ხშირად გამოყენებული სტატისტიკაა. ნახევრად პარამეტრულ და არაპარამეტრულ პროგნოზებთან დაკავშირებით სერ დევიდ კოქსმა განაცხადა:

"როგორც წესი, ისინი შეიცავს უმცირეს ჰიპოთეზას ტექსტურის და განაწილების ფორმის შესახებ, მაგრამ მოიცავს ძლიერ თეორიებს თვითკმარის შესახებ."

ჩადგმული მოდელები

არ აურიოთ ისინი მრავალდონიანი პროგნოზებით.

ორი სტატისტიკური მოდელია ჩადგმული, თუ პირველი შეიძლება გადაკეთდეს მეორეზე პირველის პარამეტრებზე შეზღუდვების დაწესებით. მაგალითად, ყველა გაუსის განაწილების სიმრავლეს აქვს ნულოვანი საშუალო განაწილების წყობილი ნაკრები:

ანუ, თქვენ უნდა შეზღუდოთ საშუალო ყველა გაუსის განაწილების სიმრავლეში, რომ მიიღოთ განაწილება ნულოვანი საშუალოთი. როგორც მეორე მაგალითი, კვადრატულ მოდელს y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) აქვს ჩაშენებული წრფივი მოდელი y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - ანუ პარამეტრი b2 უდრის 0.

ორივე ამ მაგალითში, პირველ მოდელს აქვს უფრო მაღალი განზომილება, ვიდრე მეორე მოდელს. ეს ხშირად ხდება, მაგრამ არა ყოველთვის. კიდევ ერთი მაგალითია გაუსის განაწილების სიმრავლე დადებითი საშუალოთი, რომელსაც აქვს განზომილება 2.

მოდელების შედარება

სტატისტიკური მოდელი
სტატისტიკური მოდელი

ვარაუდობენ, რომ არსებობს "ჭეშმარიტი" ალბათობის განაწილება, რომელიც საფუძვლად უდევს დაკვირვებულ მონაცემებს, რომელიც გამოწვეულია მისი გენერირებული პროცესით.

და ასევე მოდელების შედარება შესაძლებელია საძიებო ან დამადასტურებელი ანალიზის გამოყენებით. საძიებო ანალიზისას ყალიბდება სხვადასხვა მოდელები და კეთდება შეფასება, თუ რამდენად კარგად აღწერს თითოეული მათგანი მონაცემებს. დამადასტურებელ ანალიზში, ადრე ჩამოყალიბებული ჰიპოთეზა შედარებულია თავდაპირველთან. ამის საერთო კრიტერიუმებია P 2, ბაიესის ფაქტორი და ფარდობითი ალბათობა.

კონიშისა და კიტაგავას აზრი

„სტატისტიკურ მათემატიკურ მოდელში ამოცანების უმეტესობა შეიძლება ჩაითვალოს პროგნოზირებულ კითხვებად. ისინი, როგორც წესი, ჩამოყალიბებულია როგორც რამდენიმე ფაქტორის შედარება.”

გარდა ამისა, სერ დევიდ კოქსმა თქვა: "როგორც თარგმანი თემიდან, სტატისტიკური მოდელის პრობლემა ხშირად არის ანალიზის ყველაზე მნიშვნელოვანი ნაწილი."

გირჩევთ: