სტატისტიკური ინფორმაცია: შეგროვება, დამუშავება, ანალიზი

Სარჩევი:

სტატისტიკური ინფორმაცია: შეგროვება, დამუშავება, ანალიზი
სტატისტიკური ინფორმაცია: შეგროვება, დამუშავება, ანალიზი
Anonim

სტატისტიკის ისტორიის განმავლობაში, სხვადასხვა მცდელობა იყო გაზომვის დონეების ტაქსონომიის შესაქმნელად. ფსიქოფიზიკოსმა სტენლი სმიტ სტივენსმა განსაზღვრა ნომინალური, რიგითი, ინტერვალური და პროპორციული შკალები.

ნომინალურ გაზომვებს არ აქვთ რიგების მნიშვნელოვანი თანმიმდევრობა მნიშვნელობებს შორის და იძლევა ნებისმიერი კონვერტაციის საშუალებას.

რეგულარულ ზომებს აქვთ არაზუსტი განსხვავებები თანმიმდევრულ მნიშვნელობებს შორის, მაგრამ აქვთ ამ მნიშვნელობების სპეციფიკური თანმიმდევრობა და იძლევა ნებისმიერი წესრიგის შენარჩუნების ტრანსფორმაციას.

ინტერვალის გაზომვებს აქვს მნიშვნელოვანი მანძილი წერტილებს შორის, მაგრამ ნულოვანი მნიშვნელობა თვითნებურია (როგორც გრძედისა და ტემპერატურის გაზომვის შემთხვევაში ცელსიუსში ან ფარენჰეიტში) და იძლევა ნებისმიერი წრფივი ტრანსფორმაციის საშუალებას.

ფარდობის ზომებს აქვს როგორც მნიშვნელოვანი ნულოვანი მნიშვნელობა, ასევე მანძილი სხვადასხვა განზომილებებს შორის და იძლევა ნებისმიერი მასშტაბის ტრანსფორმაციის საშუალებას.

Image
Image

ცვლადები და ინფორმაციის კლასიფიკაცია

რადგან ცვლადებიმხოლოდ ნომინალური ან რიგითი გაზომვების შესაბამისი არ შეიძლება გონივრულად გაიზომოს რიცხობრივად და ზოგჯერ ჯგუფდება კატეგორიულ ცვლადებად. თანაფარდობა და ინტერვალის გაზომვები დაჯგუფებულია რაოდენობრივ ცვლადებად, რომლებიც შეიძლება იყოს დისკრეტული ან უწყვეტი მათი რიცხვითი ხასიათის გამო. ასეთი განსხვავებები ხშირად თავისუფლად უკავშირდება მონაცემთა ტიპს კომპიუტერულ მეცნიერებაში, ვინაიდან დიქოტომიური კატეგორიული ცვლადები შეიძლება იყოს წარმოდგენილი ლოგიკური მნიშვნელობებით, მრავალტომიური კატეგორიული ცვლადები თვითნებური რიცხვებით ინტეგრალურ მონაცემთა ტიპში და უწყვეტი ცვლადები რეალური კომპონენტებით, რომლებიც მოიცავს მცურავი წერტილის გამოთვლას. მაგრამ სტატისტიკური ინფორმაციის მონაცემთა ტიპების ჩვენება დამოკიდებულია იმაზე, თუ რომელი კლასიფიკაცია გამოიყენება.

სტატისტიკური ინფორმაცია მუშების შესახებ
სტატისტიკური ინფორმაცია მუშების შესახებ

სხვა კლასიფიკაციები

შეიქმნასტატისტიკური მონაცემების (ინფორმაციის) სხვა კლასიფიკაციებიც. მაგალითად, მოსტლერმა და ტუკიმ განასხვავეს ქულები, წოდებები, დათვლილი აქციები, თვლები, თანხები და ნაშთები. ნელდერმა ერთ დროს აღწერა უწყვეტი რაოდენობა, უწყვეტი კოეფიციენტები, თვლების კორელაცია და მონაცემთა გადაცემის კატეგორიული გზები. ყველა ეს კლასიფიკაციის მეთოდი გამოიყენება სტატისტიკური ინფორმაციის შეგროვებაში.

პრობლემები

საკითხი იმის შესახებ, მიზანშეწონილია თუ არა სხვადასხვა სახის სტატისტიკური მეთოდების გამოყენება სხვადასხვა გაზომვის (შეგროვების) პროცედურების შედეგად მიღებულ მონაცემებზე, გართულებულია ცვლადების კონვერტაციასთან და კითხვების ზუსტი ინტერპრეტაციასთან დაკავშირებული საკითხებით.კვლევა. „მონაცემებსა და მასში აღწერილს შორის ურთიერთობა უბრალოდ ასახავს იმ ფაქტს, რომ გარკვეული სახის სტატისტიკურ განცხადებებს შეიძლება ჰქონდეს სიმართლის მნიშვნელობები, რომლებიც არ არის უცვლელი გარკვეული ტრანსფორმაციების დროს. ღირს თუ არა ტრანსფორმაციის განხილვა, დამოკიდებულია კითხვაზე, რომელზეც ცდილობთ პასუხის გაცემას.

სტატისტიკური ინფორმაციის მაგალითი
სტატისტიკური ინფორმაციის მაგალითი

რა არის მონაცემთა ტიპი

მონაცემთა ტიპი არის ცვლადის სემანტიკური შინაარსის ფუნდამენტური კომპონენტი და აკონტროლებს, თუ რა სახის ალბათობის განაწილება შეიძლება ლოგიკურად იყოს გამოყენებული ცვლადის აღსაწერად, მასზე დაშვებული ოპერაციების, მისი პროგნოზირებისთვის გამოყენებული რეგრესიის ანალიზის ტიპზე. და ა.შ. მონაცემთა ტიპის კონცეფცია მსგავსია გაზომვის დონის ცნებაში, მაგრამ უფრო სპეციფიკური - მაგალითად, მონაცემთა დათვლა მოითხოვს განსხვავებულ განაწილებას (პუასონი ან ბინომიული), ვიდრე არაუარყოფითი რეალური მნიშვნელობებისთვის, მაგრამ ორივე ერთნაირია. გაზომვის დონე (კოეფიციენტის მასშტაბი).

სტატისტიკური ინფორმაცია მოსამართლეების შესახებ
სტატისტიკური ინფორმაცია მოსამართლეების შესახებ

სასწორი

სხვადასხვა მცდელობა გაკეთდა სტატისტიკური ინფორმაციის დასამუშავებლად გაზომვის დონეების ტაქსონომიის შესაქმნელად. ფსიქოფიზიკოსმა სტენლი სმიტ სტივენსმა განსაზღვრა ნომინალური, რიგითი, ინტერვალური და პროპორციული სკალები. ნომინალურ გაზომვებს არ გააჩნიათ წოდებების მნიშვნელოვანი თანმიმდევრობა მნიშვნელობებს შორის და იძლევა ნებისმიერი კონვერტაციის საშუალებას. ჩვეულებრივ გაზომვებს აქვს არაზუსტი განსხვავებები თანმიმდევრულ მნიშვნელობებს შორის, მაგრამ განსხვავდება ამ მნიშვნელობების მნიშვნელოვანი თანმიმდევრობით და იძლევა საშუალებასნებისმიერი წესრიგის შენარჩუნების ტრანსფორმაცია. ინტერვალის გაზომვებს აქვს მნიშვნელოვანი მანძილი გაზომვებს შორის, მაგრამ ნულოვანი მნიშვნელობა თვითნებურია (როგორც გრძედისა და ტემპერატურის გაზომვის შემთხვევაში ცელსიუსში ან ფარენჰეიტში) და იძლევა ნებისმიერი წრფივი ტრანსფორმაციის საშუალებას. თანაფარდობის ზომებს აქვს როგორც მნიშვნელოვანი ნულოვანი მნიშვნელობა, ასევე მანძილი სხვადასხვა განსაზღვრულ განზომილებებს შორის და იძლევა ნებისმიერი მასშტაბის ტრანსფორმაციის საშუალებას.

დიაგრამის მოდელი
დიაგრამის მოდელი

მონაცემები, რომელთა აღწერა შეუძლებელია ერთი რიცხვის გამოყენებით, ხშირად შედის რეალური შემთხვევითი ცვლადების შემთხვევით ვექტორებში, თუმცა მზარდი ტენდენციაა მათი თავად დამუშავების. ასეთი მაგალითები ქვემოთ იქნება განხილული.

შემთხვევითი ვექტორები

ინდივიდუალური ელემენტები შეიძლება იყოს ან არ იყოს დაკავშირებული. კორელაციური შემთხვევითი ვექტორების აღსაწერად გამოყენებული განაწილების მაგალითებია მრავალვარიატიული ნორმალური განაწილება და მრავალვარიანტული t-განაწილება. ზოგადად, შეიძლება არსებობდეს თვითნებური კორელაციები ნებისმიერ ელემენტს შორის, თუმცა ეს ხშირად ხდება უმართავი გარკვეული ზომის ზემოთ, რაც მოითხოვს დამატებით შეზღუდვებს შესაბამის კომპონენტებზე.

სტატისტიკური ატრიბუტები
სტატისტიკური ატრიბუტები

შემთხვევითი მატრიცები

შემთხვევითი მატრიცები შეიძლება განლაგდეს წრფივად და განიხილებოდეს, როგორც შემთხვევითი ვექტორები, თუმცა ეს შეიძლება არ იყოს ეფექტური გზა სხვადასხვა ელემენტებს შორის კორელაციის წარმოსაჩენად. ზოგიერთი ალბათობის განაწილება სპეციალურად შექმნილია შემთხვევითი მატრიცებისთვის, როგორიცაა ნორმალური მატრიცაგანაწილება და Wishart განაწილება.

შემთხვევითი თანმიმდევრობები

ზოგჯერ ისინი განიხილება როგორც შემთხვევითი ვექტორები, მაგრამ სხვა შემთხვევებში ტერმინი გამოიყენება კონკრეტულად იმ შემთხვევებზე, როდესაც თითოეული შემთხვევითი ცვლადი კორელირებს მხოლოდ ახლომდებარე ცვლადებთან (როგორც მარკოვის მოდელში). ეს არის ბაიესის ქსელის განსაკუთრებული შემთხვევა და გამოიყენება ძალიან გრძელი თანმიმდევრობისთვის, როგორიცაა გენის ჯაჭვები ან გრძელი ტექსტური დოკუმენტები. რიგი მოდელები სპეციალურად შექმნილია ისეთი თანმიმდევრობისთვის, როგორიცაა ფარული მარკოვის თანმიმდევრობა.

ტიპიური სქემა
ტიპიური სქემა

შემთხვევითი პროცესები

ისინი შემთხვევითი მიმდევრობების მსგავსია, მაგრამ მხოლოდ მაშინ, როცა მიმდევრობის სიგრძე განუსაზღვრელი ან უსასრულოა და მიმდევრობის ელემენტები სათითაოდ მუშავდება. ეს ხშირად გამოიყენება მონაცემებისთვის, რომლებიც შეიძლება აღწერილი იყოს როგორც დროის სერიები. ეს ასეა, როდესაც საქმე ეხება, მაგალითად, აქციების ფასს მეორე დღეს.

დასკვნა

სტატისტიკური ინფორმაციის ანალიზი მთლიანად დამოკიდებულია მისი შეგროვების ხარისხზე. ეს უკანასკნელი, თავის მხრივ, მტკიცედ არის დაკავშირებული მისი კლასიფიკაციის შესაძლებლობებთან. რა თქმა უნდა, არსებობს სტატისტიკური ინფორმაციის კლასიფიკაციის მრავალი სახეობა, რომელიც მკითხველს თავად შეეძლო დაენახა ამ სტატიის წაკითხვისას. მიუხედავად ამისა, ეფექტური ინსტრუმენტების არსებობა და მათემატიკის კარგად ფლობა, ისევე როგორც ცოდნა სოციოლოგიის სფეროში, შეასრულებს თავის საქმეს, რაც საშუალებას მოგცემთ ჩაატაროთ ნებისმიერი გამოკითხვა ან შესწავლა შეცდომის მნიშვნელოვანი შესწორების გარეშე. სტატისტიკური ინფორმაციის წყაროები ფორმაშიადამიანები, ორგანიზაციები და სოციოლოგიის სხვა საგნები, საბედნიეროდ, დიდი რაოდენობით არიან წარმოდგენილი. და ნამდვილ მკვლევარს ვერანაირი სირთულე ვერ დაუდგება წინ.

გირჩევთ: