რამდენიმე ათეული წლის წინ მეცნიერებს მხოლოდ ლინგვისტური კვლევის ავტომატიზირებაზე შეეძლოთ ოცნება. სამუშაო შესრულდა ხელით, მასში ჩართული იყო სტუდენტების დიდი რაოდენობა, იყო „უყურადღებობის“შეცდომის დიდი ალბათობა და რაც მთავარია, ამ ყველაფერს დიდი, დიდი დრო დასჭირდა.
კომპიუტერული ტექნოლოგიების განვითარებით შესაძლებელი გახდა კვლევის ჩატარება ბევრად უფრო სწრაფად და დღეს ენის შესწავლის ერთ-ერთი პერსპექტიული მიმართულება კორპუსული ლინგვისტიკაა. მისი მთავარი მახასიათებელია დიდი მოცულობის ტექსტური ინფორმაციის გამოყენება, რომელიც კონსოლიდირებულია ერთ მონაცემთა ბაზაში, სპეციალური გზით მონიშნული და კორპუსი.
დღეს არსებობს მრავალი კორპუსი, რომელიც შექმნილია სხვადასხვა მიზნისთვის, სხვადასხვა ენობრივ მასალაზე დაყრდნობით, რომელიც მოიცავს მილიონებიდან ათეულ მილიარდ ლექსიკურ ერთეულს. ეს მიმართულება აღიარებულია, როგორც პერსპექტიული და აჩვენებს მნიშვნელოვან პროგრესს გამოყენებითი და კვლევითი მიზნების მიღწევაში. პროფესიონალები, ასე თუ ისე საქმებუნებრივი ენა, რეკომენდებულია ტექსტური კორპუსების გაცნობა სულ მცირე საბაზისო დონეზე.
კორპუსული ლინგვისტიკის ისტორია
ამ მიმართულების ჩამოყალიბება გასული საუკუნის 60-იანი წლების დასაწყისში აშშ-ში ბრაუნის კორპუსის შექმნას უკავშირდება. ტექსტების კრებული შედგებოდა მხოლოდ 1 მილიონი სიტყვის ფორმისგან და დღეს ასეთი მოცულობის კორპუსი სრულიად უკონკურენტო იქნებოდა. ეს დიდწილად განპირობებულია კომპიუტერული ტექნოლოგიების განვითარების ტემპით, ისევე როგორც ახალი კვლევითი რესურსების მზარდი მოთხოვნით.
90-იან წლებში კორპუსული ლინგვისტიკა ჩამოყალიბდა სრულფასოვან და დამოუკიდებელ დისციპლინად, ტექსტების კრებულები შედგენილი და მარკირებული იყო რამდენიმე ათეულ ენაზე. ამ პერიოდის განმავლობაში, მაგალითად, ბრიტანეთის ეროვნული კორპუსი შეიქმნა 100 მილიონი სიტყვის გამოყენებისთვის.
როგორც ლინგვისტიკის ეს მიმართულება ვითარდება, ტექსტების მოცულობა უფრო დიდი ხდება (და აღწევს მილიარდობით ლექსიკურ ერთეულს) და მარკირება უფრო და უფრო მრავალფეროვანი ხდება. დღეს ინტერნეტ სივრცეში შეგიძლიათ იპოვოთ წერილობითი და ზეპირი მეტყველების კორპორები, მრავალენოვანი და საგანმანათლებლო, ორიენტირებული მხატვრულ თუ აკადემიურ ლიტერატურაზე, ისევე როგორც სხვა მრავალ ჯიშზე.
რა შემთხვევებია
კორპუსის ტიპები კორპუსების ლინგვისტიკაში შეიძლება წარმოდგენილი იყოს რამდენიმე გზით. ინტუიციურად ნათელია, რომ კლასიფიკაციის საფუძველი შეიძლება იყოს ტექსტების ენა (რუსული, გერმანული), წვდომის რეჟიმი (ღია, დახურული, კომერციული), წყაროს მასალის ჟანრი (მხატვრული ლიტერატურა).ლიტერატურა, დოკუმენტური, აკადემიური, ჟურნალისტიკა).
საინტერესოდ მიმდინარეობს ზეპირი მეტყველების ამსახველი მასალების გენერირება. ვინაიდან ასეთი მეტყველების მიზანმიმართული ჩაწერა რესპონდენტებს ხელოვნურ პირობებს შეუქმნიდა და მიღებულ მასალას „სპონტანურს“ვერ ვუწოდებთ, თანამედროვე კორპუსის ლინგვისტიკა სხვა გზით წავიდა. მოხალისე აღჭურვილია მიკროფონით და დღის განმავლობაში ჩაწერილია ყველა საუბარი, რომელშიც ის მონაწილეობს. გარშემომყოფებმა, რა თქმა უნდა, ვერ იცოდნენ, რომ ყოველდღიური საუბრის დროს ისინი წვლილი შეიტანეს მეცნიერების განვითარებაში.
მოგვიანებით მიღებული აუდიოჩანაწერები ინახება მონაცემთა ბანკში და თან ახლავს ამობეჭდილი ტექსტი ტრანსკრიპტის მსგავსად. ამ გზით შესაძლებელი გახდება სალაპარაკო ყოველდღიური მეტყველების კორპუსის შესაქმნელად საჭირო მარკირება.
აპლიკაცია
სადაც შესაძლებელია ენის გამოყენება, შესაძლებელია ტექსტური კორპუსების გამოყენებაც. ლინგვისტიკაში კორპუსის მეთოდების გამოყენების მიზანი შეიძლება იყოს:
- სენტიმენტალური პროგრამების შექმნა, რომლებიც ფართოდ გამოიყენება პოლიტიკასა და ბიზნესში, რათა თვალყური ადევნოთ პოზიტიურ და უარყოფით გამოხმაურებას ამომრჩევლებისა და მომხმარებლებისგან, შესაბამისად.
- საინფორმაციო სისტემის დაკავშირება ლექსიკონებთან და მთარგმნელებთან მათი მუშაობის გასაუმჯობესებლად.
- სხვადასხვა კვლევითი ამოცანები, რომლებიც ხელს უწყობს ენის სტრუქტურის, მისი განვითარების ისტორიის და უახლოეს მომავალში ცვლილების პროგნოზირებას.
- ინფორმაციის მოპოვების სისტემების შემუშავება მორფოლოგიურ,სინტაქსური, სემანტიკური და სხვა მახასიათებლები.
- სხვადასხვა ლინგვისტური სისტემის მუშაობის ოპტიმიზაცია და ა.შ.
ჭურვების გამოყენება
რესურსების ინტერფეისი ტიპიური საძიებო სისტემის მსგავსია და მომხმარებელს სთხოვს შეიყვანოს რაიმე სიტყვა ან სიტყვების კომბინაცია ინფორმაციის ბაზაში მოსაძიებლად. ზუსტი მოთხოვნის ფორმის გარდა, შეგიძლიათ გამოიყენოთ გაფართოებული ვერსია, რომელიც საშუალებას გაძლევთ იპოვოთ ტექსტური ინფორმაცია თითქმის ნებისმიერი ენობრივი კრიტერიუმით.
ძიების საფუძველი შეიძლება იყოს:
- მიეკუთვნება მეტყველების ნაწილების გარკვეულ ჯგუფს;
- გრამატიკული თვისებები;
- სემანტიკა;
- სტილისტური და ემოციური შეღებვა.
ასევე, შეგიძლიათ დააკავშიროთ ძიების კრიტერიუმები სიტყვების თანმიმდევრობისთვის: მაგალითად, იპოვეთ ზმნის ყველა შემთხვევა აწმყო დროში, პირველი პირი, მხოლობითი რიცხვში, რასაც მოჰყვება წინდებული "in" და არსებითი სახელი ბრალდებით შემთხვევაში.. ასეთი მარტივი ამოცანის გადაჭრა მომხმარებელს რამდენიმე წამში სჭირდება და მხოლოდ რამდენიმე მაუსის დაწკაპუნებას საჭიროებს მოცემულ ველებში.
შექმნის პროცესი
თავად ძებნა შეიძლება განხორციელდეს როგორც ყველა ქვეკორპუსში, ასევე ერთ, კონკრეტულად შერჩეულში, კონკრეტული მიზნის მიღწევის საჭიროებიდან გამომდინარე:
- პირველ რიგში, დგინდება, რომელი ტექსტები იქნება კორპუსის საფუძველი. პრაქტიკული მიზნებისთვის ხშირად გამოიყენება ჟურნალისტური, საგაზეთო მასალები, ინტერნეტ კომენტარები. კვლევით პროექტებში ყველაზე მეტადსხვადასხვა ტიპის კორპუსები, მაგრამ ტექსტები უნდა შეირჩეს რაიმე საერთო საფუძველზე.
- შექმნილი ტექსტების ნაკრები წინასწარ დამუშავებულია, შეცდომები გამოსწორებულია, ასეთის არსებობის შემთხვევაში მომზადებულია ტექსტის ბიბლიოგრაფიული და ექსტრალინგვისტური აღწერა.
- ყველა არატექსტუალური ინფორმაცია გაფილტრულია: წაშლილია გრაფიკები, სურათები, ცხრილები.
- ჟეტონები, ჩვეულებრივ სიტყვები, გამოიყოფა შემდგომი დამუშავებისთვის.
- საბოლოოდ ხორციელდება ელემენტების შედეგად მიღებული ნაკრების მორფოლოგიური, სინტაქსური და სხვა მარკირება.
ყველა შესრულებული ოპერაციის შედეგი არის სინტაქსური სტრუქტურა მასზე განაწილებული ელემენტების სიმრავლით, რომელთაგან თითოეულისთვის განსაზღვრულია მეტყველების ნაწილი, გრამატიკული და ზოგ შემთხვევაში სემანტიკური მახასიათებლები.
სიძნელეები საქმეების შექმნისას
მნიშვნელოვანია გვესმოდეს, რომ კორპუსის მისაღებად საკმარისი არ არის ბევრი სიტყვის ან წინადადების შეკრება. ერთის მხრივ, ტექსტების კრებული უნდა იყოს დაბალანსებული, ანუ წარმოადგინოს სხვადასხვა ტიპის ტექსტები გარკვეული პროპორციებით. მეორეს მხრივ, საქმის შიგთავსი განსაკუთრებული წესით უნდა იყოს მონიშნული.
პირველი საკითხი წყდება შეთანხმებით: მაგალითად, კრებულში შედის მხატვრული ტექსტების 60%, დოკუმენტური ფილმების 20%, გარკვეული პროპორცია ეთმობა ზეპირი სიტყვის წერილობით წარდგენას, საკანონმდებლო აქტებს, სამეცნიერო ნაშრომებს და ა.შ. დაბალანსებული კორპუსის იდეალური რეცეპტი დღეს არ არსებობს.
მეორე შეკითხვა კონტენტის მარკირებასთან დაკავშირებით უფრო რთული გადასაჭრელია. არსებობს სპეციალური პროგრამები და ალგორითმები, რომლებიც გამოიყენება ტექსტების ავტომატური მარკირებისთვის, მაგრამ ისინი არ იძლევიან 100%-იან შედეგს, შეიძლება გამოიწვიოს წარუმატებლობები და მოითხოვონ ხელით დახვეწა. ამ პრობლემის გადაჭრის შესაძლებლობები და პრობლემები დეტალურად არის აღწერილი V. P. ზახაროვის ნაშრომში კორპუსის ლინგვისტიკაზე.
ტექსტის მარკირება ხორციელდება რამდენიმე დონეზე, რომლებსაც ქვემოთ ჩამოვთვლით.
მორფოლოგიური მარკირება
სკოლის სკამიდან გვახსოვს, რომ რუსულ ენაში არის მეტყველების სხვადასხვა ნაწილი და თითოეულ მათგანს აქვს თავისი მახასიათებლები. მაგალითად, ზმნას აქვს განწყობისა და დროის კატეგორიები, რომლებიც არსებით სახელს არ გააჩნია. მშობლიური ადამიანი უყოყმანოდ უარყოფს არსებით სახელებს და აერთიანებს ზმნებს, მაგრამ ხელით მუშაობა არ არის შესაფერისი 100 მილიონი სიტყვის გამოყენების კორპუსის აღსანიშნავად. ყველა საჭირო ოპერაციების შესრულება შესაძლებელია კომპიუტერით, თუმცა ამისათვის საჭიროა მისი სწავლება.
მორფოლოგიური მარკირება აუცილებელია იმისათვის, რომ კომპიუტერმა "გაიგოს" თითოეული სიტყვა, როგორც მეტყველების ნაწილი, რომელსაც აქვს გარკვეული გრამატიკული მახასიათებლები. ვინაიდან რიგი რეგულარული წესები ფუნქციონირებს რუსულ ენაზე (როგორც ნებისმიერ სხვა) ენაზე, შესაძლებელია მორფოლოგიური ანალიზის ავტომატური პროცედურის აგება მანქანაში რამდენიმე ალგორითმის ჩასმით. თუმცა, არსებობს გამონაკლისები წესებიდან, ასევე სხვადასხვა მართულებელი ფაქტორები. შედეგად, სუფთა კომპიუტერული ანალიზი დღეს შორს არის იდეალურისგან და 4% შეცდომებიც კი იძლევა 4 მილიონი სიტყვის მნიშვნელობას 100 მილიონი ერთეულის კორპუსში, რაც მოითხოვს ხელით დახვეწას.
ეს პრობლემა დეტალურად არის აღწერილი V. P. ზახაროვის წიგნში "Corpus Linguistics".
სინტაქსური მარკირება
სინტაქსური ანალიზი ან პარსინგი არის პროცედურა, რომელიც განსაზღვრავს სიტყვების ურთიერთკავშირს წინადადებაში. ალგორითმების ნაკრების დახმარებით შესაძლებელი ხდება ტექსტში საგნის, პრედიკატის, დამატებების, მეტყველების სხვადასხვა მონაცვლეობის დადგენა. იმის გარკვევით, თუ რომელი სიტყვებია თანმიმდევრობით მთავარი და რომელია დამოკიდებული, ჩვენ შეგვიძლია ეფექტურად ამოვიტანოთ ინფორმაცია ტექსტიდან და ვავარჯიშოთ მანქანა, რომ დააბრუნოს მხოლოდ ის ინფორმაცია, რომელიც ჩვენ გვაინტერესებს საძიებო მოთხოვნის საპასუხოდ.
სხვათა შორის, თანამედროვე საძიებო სისტემები ამას იყენებენ კონკრეტული ნომრების მისაცემად გრძელი ტექსტების ნაცვლად შესაბამისი კითხვების პასუხად, როგორიცაა: "რამდენი კალორიაა ვაშლში" ან "მანძილი მოსკოვიდან სანკტ-პეტერბურგამდე". თუმცა, აღწერილი პროცესის საფუძვლების გასაგებად, თქვენ უნდა გაეცნოთ „კორპუსის ლინგვისტიკის შესავალი“ან სხვა ძირითადი სახელმძღვანელო.
სემანტიკური მარკირება
სიტყვის სემანტიკა, მარტივი სიტყვებით, მისი მნიშვნელობაა. სემანტიკური ანალიზის ფართოდ გამოყენებადი მიდგომა არის ტეგების მიკუთვნება სიტყვაზე, რაც ასახავს მის კუთვნილებას სემანტიკური კატეგორიებისა და ქვეკატეგორიების ერთობლიობას. ასეთი ინფორმაცია ღირებულია ტექსტის განწყობის ანალიზის ალგორითმების ოპტიმიზაციისთვის, ავტომატური მითითებისთვის და სხვა ამოცანების შესასრულებლად კორპუსის ლინგვისტიკური მეთოდების გამოყენებით.
არსებობს ხის მთელი რიგი "ფესვები", რომლებიც აბსტრაქტული სიტყვებია.ძალიან ფართო სემანტიკა. როგორც ეს ხის ტოტები, იქმნება კვანძები, რომლებიც შეიცავს უფრო და უფრო სპეციფიკურ ლექსიკურ ელემენტებს. მაგალითად, სიტყვა "არსება" შეიძლება ასოცირებული იყოს ისეთ ცნებებთან, როგორიცაა "ადამიანი" და "ცხოველი". პირველი სიტყვა გააგრძელებს სხვადასხვა პროფესიების, ნათესაობის, ეროვნების ტერმინების განშტოებას, ხოლო მეორე - ცხოველების კლასებსა და ტიპებს.
ინფორმაციის მოპოვების სისტემების გამოყენება
კორპუსული ლინგვისტიკის გამოყენების სფეროები მოიცავს საქმიანობის მრავალფეროვან სფეროს. კორპორები გამოიყენება ლექსიკონების შედგენისა და კორექტირებისთვის, ავტომატური მთარგმნელობითი სისტემების შესაქმნელად, შეჯამების, ფაქტების ამოღების, განწყობის დასადგენად და ტექსტის სხვა დამუშავებისთვის.
გარდა ამისა, ასეთი რესურსები აქტიურად გამოიყენება მსოფლიოს ენების შესწავლაში და მთლიანად ენის ფუნქციონირების მექანიზმებში. წინასწარ მომზადებული ინფორმაციის დიდი მოცულობის ხელმისაწვდომობა ხელს უწყობს ენების განვითარების ტენდენციების სწრაფ და ყოვლისმომცველ შესწავლას, ნეოლოგიზმების და სტაბილური მეტყველების ბრუნვების ჩამოყალიბებას, ლექსიკური ერთეულების მნიშვნელობების ცვლილებას და ა.შ.
რადგან მონაცემთა ამხელა მოცულობებთან მუშაობა მოითხოვს ავტომატიზაციას, დღეს მჭიდრო ურთიერთქმედებაა კომპიუტერსა და კორპუსის ლინგვისტიკას შორის.
რუსული ენის ეროვნული კორპუსი
ეს კორპუსი (შემოკლებით NKRC) მოიცავს უამრავ ქვეკორპუსს, რომელიც საშუალებას იძლევა გამოიყენოს რესურსი ამოცანების ფართო სპექტრის გადასაჭრელად.
მასალები NCRA მონაცემთა ბაზაში იყოფა:
- 90-იანი და 2000-იანი წლების მედია პუბლიკაციებზეწლები, როგორც შიდა, ასევე უცხოური;
- ზეპირი მეტყველების ჩანაწერები;
- აქცენტოლოგიურად მონიშნული ტექსტები (ანუ აქცენტის ნიშნებით);
- დიალექტური მეტყველება;
- პოეტური ნაწარმოებები;
- მასალები სინტაქსური მარკირებით და ა.შ.
საინფორმაციო სისტემა ასევე მოიცავს ქვეკორპუსებს ნაწარმოებების პარალელური თარგმანით რუსულიდან ინგლისურ, გერმანულ, ფრანგულ და ბევრ სხვა ენაზე (და პირიქით).
ასევე, მონაცემთა ბაზას აქვს ისტორიული ტექსტების განყოფილება, რომელიც წარმოადგენს წერილობით მეტყველებას რუსულ ენაზე მისი განვითარების სხვადასხვა პერიოდში. ასევე არსებობს სასწავლო კორპუსი, რომელიც შეიძლება გამოადგეს უცხოელ მოქალაქეებს რუსული ენის ათვისებაში.
რუსული ენის ეროვნული კორპუსი მოიცავს 400 მილიონ ლექსიკურ ერთეულს და მრავალი თვალსაზრისით უსწრებს ევროპული ენების კორპუსის მნიშვნელოვან ნაწილს.
პერსპექტივები
ამ სფეროს პერსპექტიულად აღიარების სასარგებლოდ არის კორპუსული ლინგვისტიკური ლაბორატორიების არსებობა როგორც რუსულ, ისე უცხოურ უნივერსიტეტებში. განხილული ინფორმაციის მოპოვების რესურსების ფარგლებში გამოყენებასთან და კვლევასთან ასოცირდება ზოგიერთი სფეროს განვითარება მაღალი ტექნოლოგიების, კითხვა-პასუხის სისტემების დარგში, მაგრამ ეს ზემოთ იყო განხილული.
კორპუსული ლინგვისტიკის შემდგომი განვითარება პროგნოზირებულია ყველა დონეზე, ტექნიკური დაწყებული, ახალი ალგორითმების დანერგვის თვალსაზრისით, რომლებიც ოპტიმიზაციას უკეთებენ ინფორმაციის ძიების და დამუშავების პროცესებს, აფართოებენ კომპიუტერების შესაძლებლობებს, ზრდის ოპერაციულს.მეხსიერება და დამთავრებული საყოფაცხოვრებო მეხსიერებით, რადგან მომხმარებლები პოულობენ უფრო და უფრო მეტ გზებს ამ ტიპის რესურსების ყოველდღიურ ცხოვრებაში და სამსახურში გამოსაყენებლად.
დასკვნაში
გასული საუკუნის შუა ხანებში 2017 წელი შორეულ მომავალს ჰგავდა, სადაც კოსმოსური ხომალდები სერფინგებენ სამყაროს სივრცეზე და რობოტები აკეთებენ ყველაფერს ხალხისთვის. თუმცა, სინამდვილეში, მეცნიერება სავსეა „ცარიელი ლაქებით“და სასოწარკვეთილ მცდელობებს უპასუხოს კითხვებს, რომლებიც საუკუნეების მანძილზე აწუხებდა კაცობრიობას. ენის ფუნქციონირების კითხვები აქ საამაყო ადგილს იკავებს და კორპუსი და გამოთვლითი ლინგვისტიკა დაგვეხმარება მათ პასუხის გაცემაში.
დიდი რაოდენობით მონაცემების დამუშავება საშუალებას გაძლევთ აღმოაჩინოთ შაბლონები, რომლებიც ადრე მიუწვდომელი იყო, იწინასწარმეტყველოთ გარკვეული ენის მახასიათებლების განვითარება, თვალყური ადევნოთ სიტყვების ფორმირებას თითქმის რეალურ დროში.
პრაქტიკულ გლობალურ დონეზე კორპორები შეიძლება ჩაითვალოს, მაგალითად, როგორც პოტენციური ინსტრუმენტი საზოგადოებრივი განწყობის შესაფასებლად - ინტერნეტი არის რეალური მომხმარებლების მიერ შექმნილი სხვადასხვა ტექსტების მუდმივად განახლებული მონაცემთა ბაზა: ეს არის კომენტარები, მიმოხილვები, სტატიები., და მეტყველების მრავალი სხვა ფორმა.
გარდა ამისა, კორპორებთან მუშაობა ხელს უწყობს იმავე ტექნიკური საშუალებების შემუშავებას, რომლებიც ჩართულია ინფორმაციის მოძიებაში, ჩვენთვის ნაცნობი Google-ის ან Yandex-ის სერვისებიდან, მანქანური თარგმანიდან, ელექტრონული ლექსიკონებიდან.
შეიძლება ითქვას, რომ კორპუსული ლინგვისტიკა მხოლოდ პირველ ნაბიჯებს დგამს და უახლოეს მომავალში სწრაფად განვითარდება.