სიხშირის ტექსტის ანალიზი: მახასიათებლები და მაგალითები

Სარჩევი:

სიხშირის ტექსტის ანალიზი: მახასიათებლები და მაგალითები
სიხშირის ტექსტის ანალიზი: მახასიათებლები და მაგალითები
Anonim

თქვენ ცხოვრებაში არაერთხელ შეგხვედრიათ ეს კონცეფცია, თუ ტექსტებთან მუშაობა მოგიწევთ. კერძოდ, შეგიძლიათ მიმართოთ ონლაინ კალკულატორებს, რომლებიც ზუსტად ახორციელებენ ტექსტის სიხშირის ანალიზს. ეს ხელსაყრელი ხელსაწყოები აჩვენებს, რამდენჯერ ჩნდება კონკრეტული სიმბოლო ან ასო ტექსტის ნებისმიერ მონაკვეთში. ხშირად პროცენტიც არის ნაჩვენები. რატომ არის ეს საჭირო? როგორ უწყობს ხელს ტექსტის სიხშირის ანალიზი მარტივი შიფრების „გატეხვას“? რა არის მისი არსი, ვინ გამოიგონა? ამ და სხვა მნიშვნელოვან კითხვებს ამ თემაზე სტატიის მსვლელობისას ვუპასუხებთ.

განმარტება

სიხშირის ანალიზი კრიპტოანალიზის ერთ-ერთი სახეობაა. იგი ეფუძნება მეცნიერთა ვარაუდს ცალკეული სიმბოლოების სტატისტიკური არატრივიალური განაწილებისა და მათი რეგულარული თანმიმდევრობის არსებობის შესახებ როგორც მარტივ, ისე დაშიფრულ ტექსტში.

ითვლება, რომ ასეთი განაწილება, ცალკეული სიმბოლოების ჩანაცვლებამდე, ასევე შენარჩუნდება დაშიფვრის/გაშიფვრის პროცესებში.

სისტემების სიხშირის ანალიზი
სისტემების სიხშირის ანალიზი

პროცესის მახასიათებელი

ახლა მოდით შევხედოთ სიხშირის ანალიზს მარტივი სიტყვებით. ეს ნიშნავს, რომ საკმარისი სიგრძის ტექსტებში ერთი და იგივე ანბანური სიმბოლოების რაოდენობა იგივეა ერთსა და იმავე ენაზე დაწერილ სხვადასხვა ტექსტებში.

და ახლა რაც შეეხება მონოანბანურ დაშიფვრას? ვარაუდობენ, რომ თუ დაშიფრული ტექსტის მქონე განყოფილებაში არის სიმბოლო მსგავსი მსგავსი ალბათობით, მაშინ რეალისტურია ვივარაუდოთ, რომ ეს არის დაშიფრული ასო.

სიხშირის ტექსტის ანალიზის მიმდევრები ერთსა და იმავე მსჯელობას მიმართავენ დიგრამებზე (ორი ასოს თანმიმდევრობა). ტრიგრამები - ეს უკვე მრავალანბანური შიფრების შემთხვევაშია.

მეთოდის ისტორია

სიტყვების სიხშირის ანალიზი არ არის თანამედროვეობის აღმოჩენა. მეცნიერული სამყაროსთვის იგი ცნობილია მე-9 საუკუნიდან. მისი შექმნა ასოცირდება სახელთან ალ-კინდი.

მაგრამ სიხშირის ანალიზის მეთოდის გამოყენების ცნობილი შემთხვევები უფრო გვიანდელ პერიოდს განეკუთვნება. აქ ყველაზე თვალსაჩინო მაგალითია ეგვიპტური იეროგლიფების გაშიფვრა, რომელიც 1822 წელს ჯ.-ფ. შამპოლიონი.

თუ მხატვრულ ლიტერატურას მივმართავთ, შეგვიძლია ვიპოვოთ ბევრი საინტერესო მინიშნება ამ გაშიფვრის მეთოდის შესახებ:

  • კონან დოილი - "მოცეკვავე კაცები".
  • ჟიულ ვერნი - "კაპიტან გრანტის შვილები".
  • ედგარ პო - "ოქროს ბუზი".

თუმცა, გასული საუკუნის შუა წლებიდან, დაშიფვრაში გამოყენებული ალგორითმების უმეტესობა შემუშავებულია ასეთი სიხშირის კრიპტოანალიზისადმი მათი წინააღმდეგობის გათვალისწინებით. ამიტომ ისდღეს ისინი ყველაზე ხშირად გამოიყენება მხოლოდ მომავალი კრიპტოგრაფების მომზადებისთვის.

ტექსტის სიხშირის ანალიზი
ტექსტის სიხშირის ანალიზი

ძირითადი მეთოდი

მოდით ახლა დეტალურად წარმოგიდგინოთ სიხშირეზე პასუხის ანალიზი. ამგვარი ანალიზი პირდაპირ ემყარება იმ ფაქტს, რომ ტესტი შედგება სიტყვებისგან და, თავის მხრივ, ასოებისგან. ასოების რაოდენობა, რომლებიც ავსებენ ეროვნულ ანბანებს, შეზღუდულია. ასოები უბრალოდ შეიძლება ჩამოთვალოთ აქ.

ასეთი ტექსტის ყველაზე მნიშვნელოვანი მახასიათებელი იქნება როგორც ასოების გამეორება, სხვადასხვა ბიგრამები, ტრიგრამები და ნ-გრამები, ასევე სხვადასხვა ასოების ერთმანეთთან თავსებადობა, თანხმოვანთა/ხმოვანთა მონაცვლეობა და სხვა. ამ სიმბოლოების ჯიშები.

მეთოდების მთავარი იდეა არის შესაძლო n-გრამების შემთხვევების დათვლა (ნმ-ით აღინიშნა) ნაციონალური ანბანის ასოებით შედგენილ მარტივ ტექსტებში საკმარისად გრძელი ანალიზისთვის (აღნიშნავს T=t1t2…tl). აღინიშნება {a1, a2, …, an}-ით). ყოველივე ზემოთქმული იწვევს ტექსტის რამდენიმე ზედიზედ მ-გრამს:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

თუ ეს არის m-გრამის ai1ai2 შემთხვევების რაოდენობა…მიზანი გარკვეულ ტექსტში T, ხოლო L არის მ-გრამების ჯამური რაოდენობა, რომელიც გაანალიზებულია მკვლევარის მიერ, მაშინ შესაძლებელია ემპირიულად დადგინდეს, რომ საკმარისად დიდი L, ასეთი მ-გრამის სიხშირეები ცოტათი განსხვავდება ერთმანეთისგან.

სიხშირის ანალიზი
სიხშირის ანალიზი

რუსული ანბანის ხშირად გავრცელებული ასოები

მაგრამ დრო-სიხშირის ანალიზს, მიუხედავად მსგავსი სახელწოდებისა, არაფერი აქვს საერთო ჩვენი საუბრის თემასთან. ამ ტიპის ანალიზი ტარდებასიგნალები დაბალი დაკვირვებადი რადარის სადგურებიდან სპეციალური ტალღის ტრანსფორმაციის გამოყენებით.

ახლა დავუბრუნდეთ მთავარ თემას. სიხშირის ანალიზის ჩატარებისას შეგიძლიათ გაიგოთ რუსული ანბანის რომელი ასოები ყველაზე ხშირად გვხვდება საკმაოდ მოცულობითი ტექსტებში (პროცენტი 0,062-დან 0,018-მდე):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • შ.
  • ბ.
  • E.
  • I.

დანერგილია სპეციალური მნემონური წესიც კი, რომელიც ეხმარება რუსული ანბანის ყველაზე გავრცელებული ასოების შესწავლას. ამისთვის საკმარისია მხოლოდ ერთი სიტყვის დამახსოვრება - „თივის ღერო“.

ზოგად შემთხვევაში, ასოების გამოყენების სიხშირე პროცენტული თვალსაზრისით დგინდება უბრალოდ: სპეციალისტი ითვლის რამდენჯერ მოხვდება ასო ტექსტში, შემდეგ ყოფს მიღებულ მნიშვნელობას ტექსტის სიმბოლოების საერთო რაოდენობაზე. და ამ მნიშვნელობის პროცენტულად გამოსახატავად საკმარისია მისი 100-ზე გამრავლება.

მნიშვნელოვანია გავითვალისწინოთ, რომ სიხშირე დამოკიდებული იქნება არა მხოლოდ ტექსტის მოცულობაზე, არამედ მის ბუნებაზეც. მაგალითად, ტექნიკურ წყაროებში ასო "F" ბევრად უფრო ხშირად ჩნდება, ვიდრე მხატვრულ ლიტერატურაში. ამიტომ, ობიექტური შედეგების მისაღწევად, სპეციალისტმა უნდა აკრიფოს სხვადასხვა ხასიათისა და სტილის ტექსტები კვლევისთვის.

ტექსტის სიხშირის ანალიზის პროგრამები
ტექსტის სიხშირის ანალიზის პროგრამები

Bi-, tri-, ოთხი გრამი

მნიშვნელოვან ტექსტებში ასევე შეგიძლიათ იპოვოთ ყველაზე გავრცელებული (შესაბამისად, ყველაზეგანმეორებითი) ორი ან მეტი ასოს კომბინაცია. სპეციალისტებმა ასევე შეადგინეს რამდენიმე ცხრილი, სადაც მითითებულია სხვადასხვა ანბანის მსგავსი დიაგრამების სიხშირე.

რაც შეეხება რუსულს, მოცულობითი შინაარსიანი ტექსტების სისტემების სიხშირის ანალიზმა შესაძლებელი გახადა ყველაზე გავრცელებული ბიგრამები და ტრიგრამები:

  • EN.
  • ST.
  • მაგრამ.
  • არა.
  • ჩართულია.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • სიახლე
  • ENO.
  • TOV.
  • OVA.
  • OVO.

ასოების სასურველი ურთიერთობა ერთმანეთთან

და ეს არ არის ყველა ის შესაძლებლობა, რაც სიხშირის ანალიზს შეუძლია ტექსტის მკვლევარებს მისცეს. ბიგრამებისა და ტრიგრამების მსგავსი ცხრილებიდან ინფორმაციის სისტემატიზაციით შესაძლებელია ასოების ყველაზე გავრცელებული კომბინაციების მონაცემების ამოღება. ან, სხვა სიტყვებით რომ ვთქვათ, მათი სასურველი ურთიერთობა ერთმანეთთან.

ასეთი ვრცელი კვლევა უკვე ჩატარდა ექსპერტების მიერ. მისი შედეგი იყო ცხრილი, სადაც ანბანის თითოეულ ასოსთან ერთად მითითებული იყო მისი მეზობლები. უფრო მეტიც, ის პერსონაჟები, რომლებიც ხშირად გვხვდება როგორც მის წინ, ასევე მის შემდეგ. ცხრილის ასოები შემთხვევით არ არის დაწერილი. სიმბოლოსთან უფრო ახლოს მითითებულია ყველაზე ხშირი მეზობლები, შემდგომში - უფრო იშვიათი.

განვიხილოთ მაგალითები:

  • ასო "A". აქ გამოირჩევა შემდეგი სასურველი კავშირები: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. აქედან ვხედავთ, რომ ყველაზე ხშირად „ა“-მდე ტექსტებში არის „H“(„NA“). და "A"-ს შემდეგ ყველაზე ხშირად რუსულ ტექსტებში შეიძლება შევხვდეთ "L"-ს.("AL").
  • ასო "M". ექსპერტებმა გამოავლინეს ასეთი სასურველი კავშირები: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • ასო "ბ". სასურველი კავშირები შემდეგია: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • ასო "შ". სასურველი კავშირები: "e-b-a-i-u-Sch-e-i-a".
  • ასო "P". სასურველი კავშირები რუსული ანბანის ამ სიმბოლოსთან: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
დრო-სიხშირის ანალიზი
დრო-სიხშირის ანალიზი

რა განსაზღვრავს ანალიზს?

თანამედროვე სიხშირის ტექსტის ანალიზის პროგრამები გვეხმარება მრავალფეროვანი სტატიების, ესეების, პასაჟების და ა.შ. დიდი მოცულობის შესწავლაში. შემდეგი ინფორმაცია მიეწოდება მკვლევარს სტანდარტულად:

  • სიმბოლოების საერთო რაოდენობა ტექსტში.
  • ავტორის მიერ გამოყენებული სივრცეების რაოდენობა.
  • ციფრების რაოდენობა.
  • ინფორმაცია გამოყენებული სასვენი ნიშნების შესახებ - წერტილები, მძიმეები და ა.შ.
  • ასოების რაოდენობა თითოეულ ხელმისაწვდომ ანბანში - კირილიცა, ლათინური და ა.შ.
  • ინფორმაცია ტექსტში თითოეული ასოსა და სიმბოლოს გამოყენების სიხშირის შესახებ - მოხსენიების რაოდენობა და პროცენტი მთელ ტექსტთან შედარებით.

ბრძოლა გადაჭარბებული ოპტიმიზაციისა და გადაჭარბებული გაჯერების წინააღმდეგ

რატომ კეთდება ტექსტის სიხშირის ანალიზი? ეს მხოლოდ ცნობისმოყვარეობის მიზნით არის - იმის დადგენა, თუ რომელი პერსონაჟები წერილობითი ტექსტის ხშირად გვხვდება? არა, ანალიზის ძირითადი გამოყენება პრაქტიკულია და ის სხვაგან დევს.

N-გრამები მოიცავს არა მხოლოდ სტაბილურ ბიგრამებს და ტრიგრამებს. იმავესკატეგორიებში შედის საკვანძო სიტყვები (ტეგები), კოლოკაცია. ანუ სტაბილური კომბინაციები, რომლებიც შედგება ორი ან მეტი სიტყვისგან. ისინი გამოირჩევიან იმით, რომ ასეთი კომპოზიციები ტექსტში ერთად გვხვდება და ამავდროულად ატარებენ გარკვეულ სემანტიკურ დატვირთვას.

ეს მოქმედებს არაკეთილსინდისიერი SEO სპეციალისტების ხელში. თავიანთ ნამუშევრებში ისინი ზოგჯერ ბოროტად იყენებენ ტექსტში ტეგების და საკვანძო სიტყვების გამეორებას, რათა ხელოვნურად გაზარდონ კონკრეტული ვებ გვერდის აქტუალობა. ისინი ცდილობენ სისტემის მოტყუებას ასეთი „ხრიკით“: ბუნებრივი კომბინაცია რუსული ენისთვის ტრადიციული სიტყვების ჩვეულებრივი კომბინაციით („იყიდე წაულასი“) არათანმიმდევრულად გადააქციონ. ანუ მიღებული სიტყვების გადაწყობით ასეთ ბუნებრივ N-გრამში ("იყიდე წაულასი").

მაგრამ დღეს საძიებო ალგორითმებმა ისწავლეს გადაჭარბებული ოპტიმიზაციის აღმოჩენა ისევე ეფექტურად, როგორც ზედმეტი სპამი - ტექსტის გადაჭარბებული გაჯერება საკვანძო სიტყვებით, ტეგებით, რომლებიც გავლენას ახდენენ შედეგების რეიტინგზე საძიებო გვერდზე. ზედმეტად ოპტიმიზებული გვერდები ახლა, პირიქით, უფრო დაბალია მომხმარებლის შეკითხვის მიხედვით. და ადამიანები თავად არ კითხულობენ უაზრო, ტეგებით გაჯერებულ ტექსტს, ამჯობინებენ სასარგებლო ინფორმაციას სხვა რესურსზე.

სიხშირის ანალიზის მეთოდი
სიხშირის ანალიზის მეთოდი

პირადი ანალიზის დახმარება SEO სპეციალისტებისთვის

ამგვარად, თანამედროვე საძიებო სისტემების ტექსტური ფილტრები დღეს უპირატესობას ანიჭებს იმ ინტერნეტ გვერდებს, რომლებზეც ინფორმაცია არა მხოლოდ ადვილად იკითხება, არამედ სასარგებლოცაა ვიზიტორებისთვის. ოპტიმიზაცია მათი მუშაობა ახალი სტანდარტების, SEO სპეციალისტებიდა მივმართოთ ტექსტის სიხშირის ანალიზს. ბევრი პოპულარული სერვისი მას დღეს გთავაზობთ.

სიხშირის ანალიზი ხელს უწყობს გამოსაქვეყნებლად მომზადებული ტექსტის მიმოხილვას ინფორმატიულობისთვის. აღმოფხვრა ტეგების და საკვანძო ფრაზების არასაჭირო სიჭარბე. ის ასევე საშუალებას გაძლევთ მიიპყროთ ავტორის ყურადღება სიტყვების არაბუნებრივი კომბინაციებით, რომლებიც ეჭვს იწვევს საძიებო სისტემების ტექსტურ ფილტრებში.

სიხშირის პასუხის ანალიზი
სიხშირის პასუხის ანალიზი

ტექსტის სიხშირის ანალიზი ამგვარად გვეხმარება წყაროში კონკრეტული პერსონაჟის ხსენების სიხშირის დადგენაში. მეთოდი გამოიყენება დღეს ტექსტის გადატვირთვის შესაფასებლად ტეგებით, სიტყვების არაბუნებრივი პერმუტაციებით.

გირჩევთ: