კლასტერიზაციის მეთოდი: აღწერა, ძირითადი ცნებები, აპლიკაციის მახასიათებლები

Სარჩევი:

კლასტერიზაციის მეთოდი: აღწერა, ძირითადი ცნებები, აპლიკაციის მახასიათებლები
კლასტერიზაციის მეთოდი: აღწერა, ძირითადი ცნებები, აპლიკაციის მახასიათებლები
Anonim

კლასტერიზაციის მეთოდი არის ობიექტების კომპლექტის დაჯგუფების ამოცანა ისე, რომ ისინი იმავე ჯგუფში უფრო ჰგვანან ერთმანეთს, ვიდრე სხვა ინდუსტრიების ობიექტებს. ეს არის მონაცემთა მოპოვების უპირველესი ამოცანა და ზოგადი სტატისტიკური ანალიზის ტექნიკა, რომელიც გამოიყენება მრავალ სფეროში, მათ შორის მანქანური სწავლის, შაბლონის ამოცნობის, გამოსახულების ამოცნობის, ინფორმაციის მოძიება, მონაცემთა შეკუმშვისა და კომპიუტერული გრაფიკის ჩათვლით..

ოპტიმიზაციის პრობლემა

კლასტერიზაციის მეთოდის გამოყენებით
კლასტერიზაციის მეთოდის გამოყენებით

თავად კლასტერირების მეთოდი არ არის ერთი კონკრეტული ალგორითმი, არამედ ზოგადი ამოცანა, რომელიც უნდა გადაიჭრას. ამის მიღწევა შესაძლებელია სხვადასხვა ალგორითმებით, რომლებიც მნიშვნელოვნად განსხვავდებიან იმის გაგებაში, თუ რას წარმოადგენს ჯგუფი და როგორ უნდა იპოვოთ ის ეფექტურად. კლასტერიზაციის მეთოდის გამოყენება მეტასუბიექტების ფორმირებისთვის მოიცავს ჯგუფის გამოყენებასწევრებს შორის მცირე მანძილი, სივრცის მკვრივი რეგიონები, ინტერვალები ან გარკვეული სტატისტიკური განაწილებები. ამიტომ, კლასტერირება შეიძლება ჩამოყალიბდეს როგორც მრავალმიზნობრივი ოპტიმიზაციის პრობლემა.

შესაბამისი მეთოდისა და პარამეტრის პარამეტრები (მათ შორის ისეთი ელემენტები, როგორიცაა გამოსაყენებელი მანძილის ფუნქცია, სიმკვრივის ბარიერი ან მოსალოდნელი კლასტერების რაოდენობა) დამოკიდებულია მონაცემთა ინდივიდუალურ ნაკრებზე და შედეგების მიზნობრივ გამოყენებაზე. ანალიზი, როგორც ასეთი, არ არის ავტომატური დავალება, არამედ ცოდნის აღმოჩენის ან ინტერაქტიული მრავალმიზნობრივი ოპტიმიზაციის განმეორებითი პროცესი. კლასტერიზაციის ეს მეთოდი მოიცავს საცდელსა და შეცდომის მცდელობებს. ხშირად საჭიროა მონაცემთა წინასწარი დამუშავებისა და მოდელის პარამეტრების შეცვლა, სანამ შედეგი არ მიაღწევს სასურველ თვისებებს.

ტერმინის "კლასტერინგის" გარდა, არსებობს მრავალი მსგავსი მნიშვნელობის მქონე სიტყვა, მათ შორის ავტომატური კლასიფიკაცია, რიცხვითი ტაქსონომია, ბოტრიოლოგია და ტიპოლოგიური ანალიზი. დახვეწილი განსხვავებები ხშირად მდგომარეობს კლასტერირების მეთოდის გამოყენებაში მეტასუბიექტური ურთიერთობების ფორმირებისთვის. მიუხედავად იმისა, რომ მონაცემთა მოპოვებისას მიღებული ჯგუფები ინტერესდებიან, ავტომატურ კლასიფიკაციაში უკვე დისკრიმინაციული ძალაა, რომელიც ასრულებს ამ ფუნქციებს.

კლასტერული ანალიზი ეფუძნებოდა კრობერის მრავალ ნაშრომს 1932 წელს. იგი ფსიქოლოგიაში შემოიტანა ზუბინმა 1938 წელს და რობერტ ტრიონმა 1939 წელს. და ამ ნამუშევრებს კატელი იყენებდა 1943 წლიდან კლასტერიზაციის მეთოდების თეორიაში კლასიფიკაციის მითითებისთვის.

ვადა

გამოყენებამეთოდი
გამოყენებამეთოდი

"კლასტერის" ცნება ზუსტად არ შეიძლება განისაზღვროს. ეს არის ერთ-ერთი მიზეზი, რის გამოც არსებობს ამდენი კლასტერული მეთოდი. არსებობს საერთო მნიშვნელი: მონაცემთა ობიექტების ჯგუფი. თუმცა, სხვადასხვა მკვლევარი სხვადასხვა მოდელს იყენებს. და კლასტერიზაციის მეთოდების თითოეული ეს გამოყენება მოიცავს სხვადასხვა მონაცემებს. სხვადასხვა ალგორითმების მიერ ნაპოვნი კონცეფცია მნიშვნელოვნად განსხვავდება თავისი თვისებებით.

კლასტერიზაციის მეთოდის გამოყენება არის გასაღები ინსტრუქციებს შორის განსხვავებების გასაგებად. ტიპიური კლასტერის ნიმუშები მოიცავს:

  • Centroid s. ეს არის, მაგალითად, როდესაც k-means კლასტერირება წარმოადგენს თითოეულ კლასტერს ერთი საშუალო ვექტორით.
  • დაკავშირების მოდელი s. ეს არის, მაგალითად, იერარქიული კლასტერირება, რომელიც აშენებს მოდელებს დისტანციური კავშირის საფუძველზე.
  • დისტრიბუციის მოდელი ს. ამ შემთხვევაში, კლასტერების მოდელირება ხდება კლასტერული მეთოდის გამოყენებით მეტასუბიექტის სტატისტიკური განაწილების ფორმირებისთვის. როგორიცაა მრავალვარიანტული ნორმალური გამოყოფა, რომელიც გამოიყენება მოლოდინის მაქსიმიზაციის ალგორითმისთვის.
  • სიმკვრივის მოდელი s. ეს არის, მაგალითად, DBSCAN (სივრცითი კლასტერული ალგორითმი ხმაურით) და OPTICS (სტრუქტურის აღმოჩენის მიმდევრობის წერტილები), რომლებიც განსაზღვრავენ კლასტერებს, როგორც დაკავშირებულ მკვრივ რეგიონებს მონაცემთა სივრცეში.
  • ქვესივრცის მოდელი გ. ორკლასტერირებაში (ასევე ცნობილია როგორც თანაკლასტერირება ან ორი რეჟიმი), ჯგუფები მოდელირებულია ორივე ელემენტით და შესაბამისი ატრიბუტებით.
  • მოდელი ს. ზოგიერთი ალგორითმი არადახვეწილი ურთიერთობა მათი კლასტერული მეთოდისთვის მეტა-სუბიექტის შედეგების გენერირებისთვის და უბრალოდ ინფორმაციის დაჯგუფების უზრუნველსაყოფად.
  • მოდელი, რომელიც დაფუძნებულია გრაფიკზე s. კლიკა, ანუ კვანძების ქვეჯგუფი, ისეთი, რომ ყოველი ორი კავშირი კიდეების ნაწილში შეიძლება ჩაითვალოს კასეტური ფორმის პროტოტიპად. მთლიანი მოთხოვნის შესუსტება ცნობილია როგორც კვაზი-კლიკები. ზუსტად იგივე სახელია წარმოდგენილი HCS კლასტერიზაციის ალგორითმში.
  • ნერვული მოდელები ს. ყველაზე ცნობილი უკონტროლო ქსელი არის თვითორგანიზებული რუკა. და ეს არის ეს მოდელები, რომლებიც ჩვეულებრივ შეიძლება დახასიათდეს, როგორც მსგავსი ერთი ან რამდენიმე ზემოაღნიშნული კლასტერული მეთოდის მეტა-სუბიექტის შედეგების ფორმირებისთვის. იგი მოიცავს ქვესივრცის სისტემებს, როდესაც ნერვული ქსელები ახორციელებენ ძირითადი ან დამოუკიდებელი კომპონენტის ანალიზის აუცილებელ ფორმას.

ეს ტერმინი, ფაქტობრივად, არის ისეთი ჯგუფების ერთობლიობა, რომელიც ჩვეულებრივ შეიცავს ყველა ობიექტს მონაცემთა კლასტერიზაციის მეთოდების ნაკრებიდან. გარდა ამისა, მას შეუძლია მიუთითოს კლასტერების ერთმანეთთან ურთიერთობა, როგორიცაა ერთმანეთში ჩაშენებული სისტემების იერარქია. დაჯგუფება შეიძლება დაიყოს შემდეგ ასპექტებად:

  • მყარი ცენტროიდური კლასტერირების მეთოდი. აქ თითოეული ობიექტი მიეკუთვნება ჯგუფს ან მის ფარგლებს გარეთაა.
  • რბილი ან ბუნდოვანი სისტემა. ამ ეტაპზე, თითოეული ობიექტი უკვე გარკვეულწილად ეკუთვნის რომელიმე კლასტერს. მას ასევე უწოდებენ c-means ფუჟური კლასტერირების მეთოდს.

და ასევე შესაძლებელია უფრო დახვეწილი განსხვავებები. მაგალითად:

  • მკაცრი დაყოფის კლასტერირება. Აქთითოეული ობიექტი ეკუთვნის ზუსტად ერთ ჯგუფს.
  • მკაცრი დაყოფა კლასტერირება გარედან. ამ შემთხვევაში, ობიექტები შეიძლება ასევე არ მიეკუთვნებოდეს რომელიმე კლასტერს და ჩაითვალოს არასაჭირო.
  • გადახურვის კლასტერირება (ასევე ალტერნატიული, მრავალი ხედით). აქ ობიექტები შეიძლება მიეკუთვნებოდეს ერთზე მეტ ფილიალს. ჩვეულებრივ მოიცავს მყარ კლასტერებს.
  • იერარქიული კლასტერიზაციის მეთოდები. ობიექტები, რომლებიც მიეკუთვნებიან ბავშვთა ჯგუფს, ასევე ეკუთვნის მშობელ ქვესისტემას.
  • ქვესივრცის ფორმირება. მიუხედავად იმისა, რომ მსგავსია გადახურული კლასტერების, ცალსახად განსაზღვრული სისტემის ფარგლებში, ორმხრივი ჯგუფები არ უნდა გადაფარონ.

ინსტრუქცია

კლასტერიზაციის მეთოდის გამოყენებით ფორმირება
კლასტერიზაციის მეთოდის გამოყენებით ფორმირება

როგორც ზემოთ აღინიშნა, კლასტერული ალგორითმები შეიძლება კლასიფიცირდეს მათი კლასტერული მოდელის მიხედვით. შემდეგი მიმოხილვა ჩამოთვლის ამ ინსტრუქციების მხოლოდ ყველაზე თვალსაჩინო მაგალითებს. ვინაიდან შეიძლება იყოს 100-ზე მეტი გამოქვეყნებული ალგორითმი, ყველა არ იძლევა მოდელებს მათი კლასტერებისთვის და, შესაბამისად, მათი ადვილად კლასიფიცირება შეუძლებელია.

არ არსებობს ობიექტურად სწორი დაჯგუფების ალგორითმი. მაგრამ, როგორც ზემოთ აღინიშნა, ინსტრუქცია ყოველთვის დამკვირვებლის ხედვის ველშია. კლასტერიზაციის ყველაზე შესაფერისი ალგორითმი კონკრეტული პრობლემისთვის ხშირად უნდა აირჩეს ექსპერიმენტულად, თუ არ არსებობს მათემატიკური მიზეზი ერთი მოდელის მეორეზე უპირატესობისთვის. უნდა აღინიშნოს, რომ ერთი ტიპისთვის განკუთვნილი ალგორითმი, როგორც წესი, არ მუშაობსმონაცემთა ნაკრები, რომელიც შეიცავს რადიკალურად განსხვავებულ საგანს. მაგალითად, k-საშუალებები ვერ პოულობენ არაამოზნექილ ჯგუფებს.

კავშირზე დაფუძნებული კლასტერირება

კლასტერიზაციის მეთოდი
კლასტერიზაციის მეთოდი

ეს გაერთიანება ასევე ცნობილია თავისი სახელით, იერარქიული მოდელით. იგი ემყარება ტიპურ იდეას, რომ ობიექტები უფრო მეტად არიან დაკავშირებული მეზობელ ნაწილებთან, ვიდრე მათთან, რომლებიც ბევრად შორს არიან. ეს ალგორითმები აკავშირებენ ობიექტებს და ქმნიან სხვადასხვა კლასტერებს, მათი მანძილის მიხედვით. ჯგუფი შეიძლება აღიწეროს ძირითადად მაქსიმალური მანძილით, რომელიც საჭიროა კლასტერის სხვადასხვა ნაწილების დასაკავშირებლად. ყველა შესაძლო მანძილზე ჩამოყალიბდება სხვა ჯგუფები, რომლებიც შეიძლება წარმოდგენილი იყოს დენდროგრამის გამოყენებით. ეს განმარტავს, საიდან მოდის საერთო სახელწოდება "იერარქიული კლასტერირება". ანუ, ეს ალგორითმები არ იძლევა მონაცემთა ნაკრების ერთ დანაყოფს, არამედ იძლევა უფლებამოსილების ფართო წესრიგს. მისი დამსახურებაა, რომ გარკვეულ დისტანციებზე ერთმანეთთან დრენაჟია. დენდროგრამაში y-ღერძი აღნიშნავს მანძილს, რომელზედაც გროვდება ერთმანეთს. და ობიექტები განლაგებულია X ხაზის გასწვრივ ისე, რომ ჯგუფები არ აირიონ.

კავშირზე დაფუძნებული კლასტერირება არის მეთოდების მთელი ოჯახი, რომლებიც განსხვავდება დისტანციების გამოთვლით. მანძილის ფუნქციების ჩვეულებრივი არჩევანის გარდა, მომხმარებელმა უნდა გადაწყვიტოს კავშირის კრიტერიუმიც. ვინაიდან კლასტერი შედგება რამდენიმე ობიექტისგან, მისი გამოთვლის მრავალი ვარიანტი არსებობს. პოპულარული არჩევანი ცნობილია როგორც ერთი ბერკეტიანი დაჯგუფება, ეს არის მეთოდისრული ბმული, რომელიც შეიცავს UPGMA-ს ან WPGMA-ს (წყვილების არაწონიანი ან შეწონილი ანსამბლი არითმეტიკული საშუალოებით, ასევე ცნობილი როგორც საშუალო ბმულების კლასტერირება). გარდა ამისა, იერარქიული სისტემა შეიძლება იყოს აგლომერაციული (დაწყებული ცალკეული ელემენტებით და მათი ჯგუფებად გაერთიანება) ან გამყოფი (დაწყებული სრული მონაცემთა ნაკრებით და ნაწილებად დაყოფა).

განაწილებული კლასტერინგი

ჩამოყალიბების კლასტერული მეთოდი
ჩამოყალიბების კლასტერული მეთოდი

ეს მოდელები ყველაზე მჭიდროდ არის დაკავშირებული სტატისტიკასთან, რომელიც დაფუძნებულია გაყოფაზე. კლასტერები ადვილად შეიძლება განისაზღვროს, როგორც ობიექტები, რომლებიც სავარაუდოდ მიეკუთვნებიან იმავე განაწილებას. ამ მიდგომის სასარგებლო თვისება ის არის, რომ ის ძალიან ჰგავს ხელოვნური მონაცემთა ნაკრების შექმნის გზას. განაწილებიდან შემთხვევითი ობიექტების შერჩევით.

მიუხედავად იმისა, რომ ამ მეთოდების თეორიული საფუძველი შესანიშნავია, ისინი განიცდიან ერთ ძირითად პრობლემას, რომელიც ცნობილია როგორც გადაჭარბებული მორგება, თუ მოდელის სირთულეზე არ არის დაწესებული შეზღუდვები. უფრო დიდი ასოციაცია ჩვეულებრივ უკეთ ხსნის მონაცემებს, რაც ართულებს სწორი მეთოდის არჩევას.

გაუსური ნარევის მოდელი

ეს მეთოდი იყენებს ყველა სახის მოლოდინის მაქსიმიზაციის ალგორითმს. აქ მონაცემთა ნაკრები ჩვეულებრივ მოდელირებულია გაუსიანი განაწილების ფიქსირებული (გადაჭარბების თავიდან ასაცილებლად) რაოდენობის მიხედვით, რომლებიც ინიციალიზებულია შემთხვევით და რომელთა პარამეტრებიც განმეორებით ოპტიმიზირებულია მონაცემთა ნაკრების უკეთ მორგებისთვის. ეს სისტემა გადაიყრება ადგილობრივ ოპტიმალთან. ამიტომ რამდენიმე გაშვება შეუძლიასხვადასხვა შედეგები. ყველაზე მჭიდრო კლასტერიზაციის მისაღებად, ფუნქციები ხშირად ენიჭება გაუსიან განაწილებას, რომელსაც, სავარაუდოდ, ეკუთვნის. და უფრო რბილი ჯგუფებისთვის ეს არ არის საჭირო.

განაწილებაზე დაფუძნებული კლასტერირება ქმნის კომპლექსურ მოდელებს, რომლებსაც შეუძლიათ საბოლოოდ აღბეჭდონ ატრიბუტებს შორის კორელაცია და დამოკიდებულება. თუმცა, ეს ალგორითმები დამატებით ტვირთს აკისრებს მომხმარებელს. ბევრი რეალური სამყაროს მონაცემთა ნაკრებისთვის შეიძლება არ არსებობდეს მოკლედ განსაზღვრული მათემატიკური მოდელი (მაგალითად, დავუშვათ, რომ გაუსის განაწილება საკმაოდ ძლიერი ვარაუდია).

სიმკვრივეზე დაფუძნებული კლასტერირება

კლასტერირება ჩამოყალიბება
კლასტერირება ჩამოყალიბება

ამ მაგალითში, ჯგუფები ძირითადად განისაზღვრება, როგორც უფრო მაღალი გამტარიანობის მქონე უბნები, ვიდრე დანარჩენი მონაცემთა ნაკრები. ამ იშვიათ ნაწილებში არსებული ობიექტები, რომლებიც აუცილებელია ყველა კომპონენტის განცალკევებისთვის, ჩვეულებრივ განიხილება ხმაური და კიდეები.

სიმკვრივეზე დაფუძნებული კლასტერიზაციის ყველაზე პოპულარული მეთოდია DBSCAN (სივრცითი ხმაურის დაჯგუფების ალგორითმი). ბევრი ახალი მეთოდისგან განსხვავებით, მას აქვს კარგად განსაზღვრული კლასტერული კომპონენტი, რომელსაც ეწოდება "სიმკვრივის მიღწევა". ბმულზე დაფუძნებული კლასტერინგის მსგავსად, ის ეფუძნება კავშირის წერტილებს გარკვეული მანძილის ზღურბლში. თუმცა, ეს მეთოდი აგროვებს მხოლოდ იმ ნივთებს, რომლებიც აკმაყოფილებს სიმკვრივის კრიტერიუმს. თავდაპირველ ვერსიაში, რომელიც განისაზღვრება როგორც სხვა ობიექტების მინიმალური რაოდენობა ამ რადიუსში, კლასტერი შედგება ყველასგანსიმკვრივესთან დაკავშირებული ერთეულები (რომლებსაც შეუძლიათ შექმნან თავისუფალი ფორმის ჯგუფი, ბევრი სხვა მეთოდისგან განსხვავებით) და ყველა ობიექტი, რომელიც დაშვებულ დიაპაზონშია.

DBSCAN-ის კიდევ ერთი საინტერესო თვისება არის ის, რომ მისი სირთულე საკმაოდ დაბალია - ის მოითხოვს დიაპაზონის მოთხოვნების ხაზოვან რაოდენობას მონაცემთა ბაზაში. და ასევე უჩვეულო ის არის, რომ ის იპოვის არსებითად ერთსა და იმავე შედეგებს (ეს განმსაზღვრელია ბირთვისა და ხმაურის წერტილებისთვის, მაგრამ არა სასაზღვრო ელემენტებისთვის) ყოველ პერსპექტივაში. ამიტომ, არ არის საჭირო მისი მრავალჯერ გაშვება.

DBSCAN-ისა და OPTICS-ის მთავარი მინუსი არის ის, რომ ისინი ელიან სიმკვრივის გარკვეულ ვარდნას კასეტური საზღვრების გამოსავლენად. მაგალითად, მონაცემთა ნაკრებებში, რომლებსაც აქვთ გადახურული გაუსის განაწილება - ხელოვნური ობიექტების ჩვეულებრივი გამოყენების შემთხვევა - ამ ალგორითმების მიერ წარმოქმნილი კასეტური საზღვრები ხშირად თვითნებურად ჩანს. ეს იმიტომ ხდება, რომ ჯგუფების სიმკვრივე მუდმივად მცირდება. და გაუსის ნარევების მონაცემთა ბაზაში, ეს ალგორითმები თითქმის ყოველთვის აჯობებენ ისეთ მეთოდებს, როგორიცაა EM კლასტერირება, რომლებსაც შეუძლიათ ამ ტიპის სისტემების ზუსტად მოდელირება.

საშუალო გადაადგილება არის კლასტერული მიდგომა, რომლის დროსაც თითოეული ობიექტი გადადის სამეზობლოში ყველაზე მჭიდრო არეალში, მთელი ბირთვის შეფასების საფუძველზე. საბოლოო ჯამში, ობიექტები იყრიან ადგილობრივ შეღწევადობის მაქსიმუმს. k-საშუალებების კლასტერიზაციის მსგავსად, ეს „სიმკვრივის მიმზიდველები“შეიძლება იყოს მონაცემთა ნაკრების წარმომადგენლები. მაგრამ საშუალო ცვლაშეუძლია აღმოაჩინოს DBSCAN-ის მსგავსი თვითნებური ფორმის კლასტერები. ძვირადღირებული განმეორებითი პროცედურისა და სიმკვრივის შეფასების გამო, საშუალო გადაადგილება ჩვეულებრივ უფრო ნელია ვიდრე DBSCAN ან k-Means. გარდა ამისა, ტიპიური ცვლის ალგორითმის გამოყენება მაღალგანზომილებიან მონაცემებზე რთულია ბირთვის სიმკვრივის შეფასების არაერთგვაროვანი ქცევის გამო, რაც იწვევს კასეტური კუდების გადაჭარბებულ ფრაგმენტაციას.

რეიტინგი

კლასტერული მეთოდი მეტასუბიექტის ფორმირებისთვის
კლასტერული მეთოდი მეტასუბიექტის ფორმირებისთვის

დაჯგუფების შედეგების გადამოწმება ისეთივე რთულია, როგორც თავად კლასტერირება. პოპულარული მიდგომები მოიცავს "შიდა" ქულებს (სადაც სისტემა დაყვანილია ხარისხის ერთ საზომამდე) და, რა თქმა უნდა, "გარე" ქულებს (სადაც კლასტერირება შედარებულია არსებულ "ძირითადი ჭეშმარიტების" კლასიფიკაციასთან). და ადამიანის ექსპერტის სახელმძღვანელო ქულა და არაპირდაპირი ქულა მიიღება განზრახ აპლიკაციაში კლასტერიზაციის სარგებლიანობის შემოწმებით.

შიდა დროშის ზომები განიცდის პრობლემას, რომ ისინი წარმოადგენენ მახასიათებლებს, რომლებიც თავად შეიძლება ჩაითვალოს კლასტერიზაციის სამიზნეებად. მაგალითად, შესაძლებელია სილუეტის კოეფიციენტით მოცემული მონაცემების დაჯგუფება, გარდა იმისა, რომ არ არის ცნობილი ეფექტური ალგორითმი ამისთვის. შეფასებისთვის ასეთი შიდა საზომის გამოყენებით, უმჯობესია შევადაროთ ოპტიმიზაციის პრობლემების მსგავსება.

გარე ნიშანს მსგავსი პრობლემები აქვს. თუ არსებობს „მიწის ჭეშმარიტების“ასეთი იარლიყები, მაშინ არ არის საჭირო დაჯგუფება. და პრაქტიკულ პროგრამებში, როგორც წესი, არ არსებობს ასეთი ცნებები. მეორეს მხრივ, ეტიკეტები ასახავს მონაცემთა ნაკრების მხოლოდ ერთ შესაძლო დანაყოფს, რაც არ ნიშნავსრომ არ არსებობს სხვა (შეიძლება უკეთესიც) კლასტერირება.

ასე რომ, არცერთ ამ მიდგომას არ შეუძლია საბოლოოდ შეაფასოს რეალურ ხარისხზე. მაგრამ ეს მოითხოვს ადამიანის შეფასებას, რაც ძალიან სუბიექტურია. მიუხედავად ამისა, ასეთი სტატისტიკა შეიძლება იყოს ინფორმაციული ცუდი კლასტერების იდენტიფიცირებისას. მაგრამ ადამიანის სუბიექტურ შეფასებას არ უნდა უარვყოთ.

შიდა ნიშანი

როდესაც კლასტერიზაციის შედეგი ფასდება იმ მონაცემების საფუძველზე, რომლებიც თავად იყო დაჯგუფებული, ამას მოიხსენიებენ როგორც ამ ტერმინს. ეს მეთოდები ზოგადად საუკეთესო შედეგს ანიჭებს ალგორითმს, რომელიც ქმნის ჯგუფებს მაღალი მსგავსებით და მცირე ჯგუფებს შორის. კლასტერული შეფასებისას შიდა კრიტერიუმების გამოყენების ერთ-ერთი მინუსი არის ის, რომ მაღალი ქულები სულაც არ იწვევს ინფორმაციის მოძიების ეფექტურ აპლიკაციებს. ასევე, ეს ქულა მიკერძოებულია ალგორითმების მიმართ, რომლებიც იყენებენ იმავე მოდელს. მაგალითად, k-საშუალებების კლასტერირება ბუნებრივად ოპტიმიზებს მახასიათებლების დისტანციებს და მასზე დაფუძნებული შიდა კრიტერიუმი, სავარაუდოდ, გადაჭარბებულად აფასებს მიღებულ კლასტერირებას.

ამიტომ, ეს შეფასების ზომები საუკეთესოდ შეეფერება სიტუაციების წარმოდგენას, სადაც ერთი ალგორითმი უკეთესად მუშაობს, ვიდრე მეორე. მაგრამ ეს არ ნიშნავს იმას, რომ თითოეული ინფორმაცია იძლევა უფრო სანდო შედეგებს, ვიდრე სხვები. ასეთი ინდექსით გაზომილი მოქმედების პერიოდი დამოკიდებულია მტკიცებაზე, რომ სტრუქტურა არსებობს მონაცემთა ნაკრებში. ზოგიერთი ტიპისთვის შემუშავებულ ალგორითმს შანსი არ აქვს, თუ ნაკრები რადიკალურად შეიცავსგანსხვავებული შემადგენლობა ან თუ შეფასება აფასებს განსხვავებულ კრიტერიუმებს. მაგალითად, k-means კლასტერირებას შეუძლია მხოლოდ ამოზნექილი კლასტერების პოვნა, და ბევრი ქულის ინდექსს აქვს იგივე ფორმატი. მონაცემთა ნაკრებში არაამოზნექილი მოდელებით, შეუსაბამოა k-საშუალებების და ტიპიური შეფასების კრიტერიუმების გამოყენება.

გარე შეფასება

ასეთი ტიპის ბალინგით, კლასტერიზაციის შედეგები ფასდება იმ მონაცემების საფუძველზე, რომლებიც არ იყო გამოყენებული დაჯგუფებისთვის. ანუ ისეთი, როგორიც არის ცნობილი კლასის ეტიკეტები და გარე ტესტები. ასეთი კითხვები შედგება წინასწარ კლასიფიცირებული ნივთების ნაკრებისგან და ხშირად იქმნება ექსპერტების (ადამიანების) მიერ. როგორც ასეთი, საცნობარო კომპლექტები შეიძლება ჩაითვალოს შეფასების ოქროს სტანდარტად. ამ ტიპის შეფასების მეთოდები ზომავს რამდენად ახლოსაა კლასტერირება მოცემულ საცნობარო კლასებთან. თუმცა, ახლახან განიხილეს, არის თუ არა ეს ადეკვატური რეალური მონაცემებისთვის, თუ მხოლოდ სინთეზური კომპლექტებისთვის რეალური მიწის ჭეშმარიტებით. ვინაიდან კლასები შეიძლება შეიცავდეს შიდა სტრუქტურას და არსებული ატრიბუტები შეიძლება არ დაუშვას კლასტერების გამოყოფა. ასევე, ცოდნის აღმოჩენის თვალსაზრისით, ცნობილი ფაქტების რეპროდუცირებამ შეიძლება სულაც არ გამოიწვიოს მოსალოდნელი შედეგი. სპეციალურ შეზღუდულ კლასტერულ სცენარში, სადაც მეტაინფორმაცია (როგორიცაა კლასის ეტიკეტები) უკვე გამოიყენება დაჯგუფების პროცესში, შეფასების მიზნებისთვის მთელი ინფორმაციის შენახვა ტრივიალური არ არის.

ახლა გასაგებია, რა არ ეხება კლასტერიზაციის მეთოდებს და რა მოდელები გამოიყენება ამ მიზნებისთვის.

გირჩევთ: