მულტივარიატიული სკალირება (MDS) არის ინსტრუმენტი მონაცემთა ნაკრების ცალკეული შემთხვევების მსგავსების დონის ვიზუალიზაციისთვის. ეს ეხება დალაგების დაკავშირებულ მეთოდებს, რომლებიც გამოიყენება ინფორმაციის ვიზუალიზაციაში, კერძოდ, დისტანციური მატრიცაში შემავალი ინფორმაციის ჩვენებისთვის. ეს არის არაწრფივი განზომილების შემცირების ფორმა. MDS ალგორითმი მიზნად ისახავს თითოეული ობიექტის N-განზომილებიან სივრცეში განთავსებას ისე, რომ ობიექტებს შორის მანძილი მაქსიმალურად იყოს დაცული. შემდეგ თითოეულ ობიექტს ენიჭება კოორდინატები თითოეულ N განზომილებაში.
MDS გრაფის განზომილებების რაოდენობა შეიძლება აღემატებოდეს 2-ს და მითითებულია აპრიორი. N=2-ის არჩევა ოპტიმიზებს ობიექტების განლაგებას 2D სკატერპლატისთვის. მრავალგანზომილებიანი სკალირების მაგალითები შეგიძლიათ იხილოთ სტატიაში მოცემულ სურათებში. რუსულ ენაზე სიმბოლოების მაგალითები განსაკუთრებით საილუსტრაციოა.
არსი
მრავალგანზომილებიანი სკალირების მეთოდი (MMS,MDS) არის კლასიკური ხელსაწყოების გაფართოებული ნაკრები, რომელიც აზოგადებს ოპტიმიზაციის პროცედურას დაკარგვის ფუნქციების ნაკრებისთვის და ცნობილი მანძილების შეყვანის მატრიცებისთვის წონებით და ა.შ. ამ კონტექსტში, სასარგებლო დანაკარგის ფუნქციას ეწოდება სტრესი, რომელიც ხშირად მცირდება პროცედურის საშუალებით, რომელსაც ეწოდება სტრესის მაჟორიზაცია.
სახელმძღვანელო
მრავალგანზომილებიანი სკალირების რამდენიმე ვარიანტი არსებობს. MDS პროგრამები ავტომატურად ამცირებს დატვირთვას გამოსავლის მისაღებად. არამეტრული MDS ალგორითმის ბირთვი არის ორმაგი ოპტიმიზაციის პროცესი. პირველ რიგში, უნდა მოიძებნოს ოპტიმალური მონოტონური სიახლოვის ტრანსფორმაცია. მეორეც, კონფიგურაციის წერტილები უნდა იყოს ოპტიმალურად განლაგებული ისე, რომ მათი მანძილი მაქსიმალურად ემთხვეოდეს მასშტაბურ სიახლოვის მნიშვნელობებს.
გაფართოება
მეტრული მრავალგანზომილებიანი სკალირების გაფართოება სტატისტიკაში, სადაც სამიზნე სივრცე არის თვითნებური გლუვი არაევკლიდური სივრცე. სადაც განსხვავებები არის მანძილი ზედაპირზე და სამიზნე სივრცე არის განსხვავებული ზედაპირი. თემატური პროგრამები საშუალებას გაძლევთ იპოვოთ დანართი ერთი ზედაპირის მეორეზე მინიმალური დამახინჯებით.
ნაბიჯები
მრავალვარიანტული სკალირების გამოყენებით კვლევის ჩატარების რამდენიმე ეტაპია:
- პრობლემის ფორმულირება. რა ცვლადების შედარება გსურთ? რამდენი ცვლადის შედარება გსურთ? რა მიზნით იქნება გამოყენებული კვლევა?
- შეყვანის მონაცემების მიღება.რესპონდენტებს უსვამენ კითხვების სერიას. თითოეული წყვილი პროდუქტისთვის, მათ სთხოვენ შეაფასონ მსგავსება (ჩვეულებრივ, 7-ბალიანი ლიკერტის შკალაზე ძალიან მსგავსიდან ძალიან განსხვავებულამდე). პირველი შეკითხვა შეიძლება იყოს Coca-Cola/Pepsi-ზე, მაგალითად, შემდეგი ლუდისთვის, შემდეგი დოქტორ პეპერისთვის და ა.შ. კითხვების რაოდენობა დამოკიდებულია ბრენდების რაოდენობაზე.
ალტერნატიული მიდგომები
არის ორი სხვა მიდგომა. არსებობს ტექნიკა სახელწოდებით "აღქმის მონაცემები: მიღებული მიდგომა", რომლის დროსაც პროდუქტები იშლება ატრიბუტებად და შეფასება ხდება სემანტიკური დიფერენციალური მასშტაბით. კიდევ ერთი მეთოდია „პრეფერენციული მონაცემების მიდგომა“, რომლის დროსაც რესპონდენტებს ეკითხებიან პრეფერენციებზე და არა მსგავსებაზე.
ის შედგება შემდეგი ნაბიჯებისგან:
- MDS სტატისტიკური პროგრამის გაშვება. პროგრამული უზრუნველყოფა პროცედურის განსახორციელებლად ხელმისაწვდომია მრავალ სტატისტიკურ პროგრამულ პაკეტში. ხშირად არის არჩევანი მეტრულ MDS-ს (რომელიც ეხება ინტერვალის ან თანაფარდობის დონის მონაცემებს) და არამეტრულ MDS-ს (რომელიც ეხება რიგით მონაცემებს) შორის.
- გაზომვების რაოდენობის განსაზღვრა. მკვლევარმა უნდა განსაზღვროს გაზომვების რაოდენობა, რომლის შექმნაც სურს კომპიუტერზე. რაც უფრო მეტი გაზომვაა, მით უკეთესია სტატისტიკა, მაგრამ უფრო რთულია შედეგების ინტერპრეტაცია.
- აჩვენეთ შედეგები და განსაზღვრეთ გაზომვები - სტატისტიკური პროგრამა (ან დაკავშირებული მოდული) აჩვენებს შედეგებს. რუკა აჩვენებს თითოეულ პროდუქტს (ჩვეულებრივ 2D-ში).სივრცე). პროდუქტების ერთმანეთთან სიახლოვე მიუთითებს მათ მსგავსებაზე ან უპირატესობაზე, იმისდა მიხედვით, თუ რომელი მიდგომა იყო გამოყენებული. თუმცა, როგორ შეესაბამება გაზომვები რეალურად სისტემის ქცევის გაზომვებს, ყოველთვის არ არის ნათელი. შესაბამისობის სუბიექტური მსჯელობა აქ შეიძლება.
- შეამოწმეთ შედეგები სანდოობისა და ვალიდობისთვის - გამოთვალეთ R-კვადრატი, რათა დადგინდეს მასშტაბური მონაცემების დისპერსიის პროპორცია, რომელიც შეიძლება აისახოს MDS პროცედურაში. კვადრატული R 0.6 ითვლება მინიმალურ დასაშვებ დონედ. R კვადრატი 0,8 ითვლება კარგი მეტრიკული სკალირებისთვის, ხოლო 0,9 ითვლება კარგი არამეტრული სკალირებისთვის.
სხვადასხვა ტესტები
სხვა შესაძლო ტესტებია კრუსკალის ტიპის სტრეს ტესტები, მონაცემთა გაყოფის ტესტები, მონაცემთა სტაბილურობის ტესტები და ხელახალი ტესტირების სანდოობის ტესტები. დაწერეთ დეტალურად ტესტის შედეგების შესახებ. რუკებთან ერთად უნდა იყოს მითითებული მანძილის (მაგ. სორენსონის ინდექსი, ჯაკარდის ინდექსი) და საიმედოობის (მაგ. სტრესის მნიშვნელობა) მინიმუმი.
ასევე ძალიან სასურველია მიეცეს ალგორითმი (მაგ. Kruskal, Mather), რომელიც ხშირად განისაზღვრება გამოყენებული პროგრამით (ზოგჯერ ალგორითმის ანგარიშის ჩანაცვლება), თუ თქვენ მიუთითეთ საწყისი კონფიგურაცია ან გქონდათ შემთხვევითი არჩევანი, ნომერი. განზომილების გაშვებების, მონტე კარლოს შედეგები, გამეორებების რაოდენობა, სტაბილურობის ქულა და თითოეული ღერძის პროპორციული ვარიაცია (r-კვადრატი).
ვიზუალური ინფორმაციისა და მონაცემთა ანალიზის მეთოდიმრავალგანზომილებიანი მასშტაბირება
ინფორმაციის ვიზუალიზაცია არის აბსტრაქტული მონაცემების ინტერაქტიული (ვიზუალური) წარმოდგენების შესწავლა ადამიანის შემეცნების გასაძლიერებლად. აბსტრაქტული მონაცემები მოიცავს როგორც ციფრულ, ისე არაციფრულ მონაცემებს, როგორიცაა ტექსტური და გეოგრაფიული ინფორმაცია. ამასთან, ინფორმაციის ვიზუალიზაცია განსხვავდება მეცნიერული ვიზუალიზაციისგან: „ეს არის ინფორმაციული (ინფორმაციული ვიზუალიზაცია), როდესაც არჩეულია სივრცითი წარმოდგენა და scivis (მეცნიერული ვიზუალიზაცია), როდესაც მოცემულია სივრცითი წარმოდგენა“.
ინფორმაციის ვიზუალიზაციის სფერო წარმოიშვა ადამიანისა და კომპიუტერის ურთიერთქმედების, კომპიუტერული მეცნიერების აპლიკაციების, გრაფიკის, ვიზუალური დიზაინის, ფსიქოლოგიის და ბიზნეს მეთოდების კვლევის შედეგად. ის სულ უფრო მეტად გამოიყენება, როგორც არსებითი კომპონენტი სამეცნიერო კვლევებში, ციფრულ ბიბლიოთეკებში, მონაცემთა მოპოვებაში, ფინანსურ მონაცემებში, ბაზრის კვლევაში, წარმოების კონტროლში და ა.შ.
მეთოდები და პრინციპები
ინფორმაციის ვიზუალიზაცია ვარაუდობს, რომ ვიზუალიზაცია და ურთიერთქმედების მეთოდები სარგებლობენ ადამიანის აღქმის სიმდიდრით, რაც მომხმარებლებს საშუალებას აძლევს ერთდროულად ნახონ, შეისწავლონ და გაიგონ დიდი რაოდენობით ინფორმაცია. ინფორმაციის ვიზუალიზაცია მიზნად ისახავს შექმნას მიდგომები აბსტრაქტული მონაცემების, ინფორმაციის ინტუიციური კომუნიკაციისთვის.
მონაცემთა ანალიზი არის ყველა გამოყენებითი კვლევისა და ინდუსტრიაში პრობლემების გადაჭრის განუყოფელი ნაწილი. უმეტესობამონაცემთა ანალიზის ფუნდამენტური მიდგომებია ვიზუალიზაცია (ჰისტოგრამები, სკატერის ნახაზები, ზედაპირული ნაკვეთები, ხეების რუქები, პარალელური კოორდინატების ნახაზები და ა.შ.), სტატისტიკა (ჰიპოთეზის ტესტირება, რეგრესია, PCA და ა.შ.), მონაცემთა ანალიზი (შემთხვევა და ა.შ.)..დ.) და მანქანური სწავლების მეთოდები (კლასტერირება, კლასიფიკაცია, გადაწყვეტილების ხეები და ა.შ.).
ამ მიდგომებს შორის ინფორმაციის ვიზუალიზაცია ან ვიზუალური მონაცემთა ანალიზი ყველაზე მეტად არის დამოკიდებული ანალიტიკური პერსონალის შემეცნებით უნარებზე და საშუალებას იძლევა აღმოაჩინოს არასტრუქტურირებული ქმედითი შეხედულებები, რომლებიც შემოიფარგლება მხოლოდ ადამიანის ფანტაზიითა და შემოქმედებითობით. ანალიტიკოსს არ სჭირდება რაიმე რთული ტექნიკის სწავლა, რათა შეძლოს მონაცემთა ვიზუალიზაციის ინტერპრეტაცია. ინფორმაციის ვიზუალიზაცია ასევე არის ჰიპოთეზის გენერირების სქემა, რომელსაც შეუძლია და ჩვეულებრივ ახლავს უფრო ანალიტიკური ან ფორმალური ანალიზი, როგორიცაა სტატისტიკური ჰიპოთეზის ტესტირება.
სწავლა
ვიზუალიზაციის თანამედროვე შესწავლა დაიწყო კომპიუტერული გრაფიკით, რომელიც თავიდანვე გამოიყენებოდა სამეცნიერო პრობლემების შესასწავლად. თუმცა, ადრეულ წლებში, გრაფიკული სიმძლავრის ნაკლებობა ხშირად ზღუდავდა მის სარგებლობას. დაიწყო ვიზუალიზაციის პრიორიტეტი. განვითარდა 1987 წელს, კომპიუტერული გრაფიკისა და ვიზუალიზაციისთვის სპეციალური პროგრამული უზრუნველყოფის გამოშვებით სამეცნიერო გამოთვლებში.
მათ დაფარეს მონაცემთა ვიზუალიზაციის, ინფორმაციის ვიზუალიზაციისა და სამეცნიერო ვიზუალიზაციის ზოგადი თემები,ასევე უფრო სპეციფიკურ სფეროებს, როგორიცაა მოცულობის რენდერი.
რეზიუმე
განზოგადებული მრავალგანზომილებიანი სკალირება (GMDS) არის მეტრული მრავალგანზომილებიანი სკალირების გაფართოება, რომელშიც სამიზნე სივრცე არაევკლიდურია. როდესაც განსხვავებები არის დისტანციები ზედაპირზე, ხოლო სამიზნე სივრცე სხვა ზედაპირია, GMDS საშუალებას გაძლევთ იპოვოთ ერთი ზედაპირის მეორეზე ბუდე მინიმალური დამახინჯებით.
GMDS არის კვლევის ახალი ხაზი. ამჟამად, ძირითადი აპლიკაციებია დეფორმირებადი ობიექტების ამოცნობა (მაგალითად, სახის 3D ამოცნობისთვის) და ტექსტურის რუქები.
მრავალგანზომილებიანი სკალირების მიზანია მრავალგანზომილებიანი მონაცემების წარმოდგენა. მრავალგანზომილებიანი მონაცემები, ანუ მონაცემები, რომელთა წარმოდგენა ორ ან სამზე მეტ განზომილებას მოითხოვს, შეიძლება რთული იყოს ინტერპრეტაცია. გამარტივების ერთ-ერთი მიდგომაა ვივარაუდოთ, რომ საინტერესო მონაცემები დევს ჩაშენებულ არაწრფივ მრავალფეროვნებაზე მაღალგანზომილებიან სივრცეში. თუ კოლექციონერს აქვს საკმარისად დაბალი განზომილება, მონაცემთა ვიზუალიზაცია შესაძლებელია დაბალგანზომილებიან სივრცეში.
ბევრი არაწრფივი განზომილების შემცირების მეთოდი დაკავშირებულია წრფივ მეთოდებთან. არაწრფივი მეთოდები შეიძლება ფართოდ დაიყოს ორ ჯგუფად: ისინი, რომლებიც უზრუნველყოფენ რუკებს (ან მაღალი განზომილებიანი სივრციდან დაბალგანზომილებიან ჩაშენებამდე, ან პირიქით) და ისინი, რომლებიც უბრალოდ უზრუნველყოფენ ვიზუალიზაციას. მანქანათმცოდნეობის კონტექსტში, რუკების მეთოდები შეიძლება განიხილებოდეს როგორცმახასიათებლების ამოღების წინასწარი ეტაპი, რის შემდეგაც გამოიყენება ნიმუშის ამოცნობის ალგორითმები. ჩვეულებრივ, ისინი, რომლებიც მხოლოდ ვიზუალიზაციას აძლევენ, ეფუძნება სიახლოვის მონაცემებს - ანუ მანძილის გაზომვას. მრავალგანზომილებიანი სკალირება ასევე საკმაოდ გავრცელებულია ფსიქოლოგიასა და სხვა ჰუმანიტარულ მეცნიერებებში.
თუ ატრიბუტების რაოდენობა დიდია, მაშინ უნიკალური შესაძლო სტრიქონების სივრცე ასევე ექსპონენტურად დიდია. ამრიგად, რაც უფრო დიდია განზომილება, მით უფრო რთული ხდება სივრცის გამოსახვა. ეს უამრავ პრობლემას იწვევს. ალგორითმები, რომლებიც მუშაობენ მაღალგანზომილებიან მონაცემებზე, როგორც წესი, აქვთ ძალიან მაღალი დროის სირთულე. მონაცემების ნაკლებ განზომილებამდე შემცირება ხშირად ანალიზის ალგორითმებს უფრო ეფექტურს ხდის და ეხმარება მანქანური სწავლის ალგორითმებს უფრო ზუსტი პროგნოზების გაკეთებაში. სწორედ ამიტომ არის მონაცემთა მრავალგანზომილებიანი სკალირება ასე პოპულარული.