Загальна форма морфологічного аналізу текстів
Нижче робиться спроба дати позитивну відповідь на ці питання.
Загальна форма морфологічного аналізу текстів
Деякі обмеження
Загальна форма морфологічного аналізу, про яку іде мова, не є абсолютно загальною. Її “загальність” обмежено певним колом мов та певним типом алгоритмів.
Обмеження стосовно мов полягає в тому, що загальна форма морфологічного аналізу призначена лише для суфіксально-афіксальних мов (індоєвропейських, угро-фінських, тюркських і т. ін.). Виключаються мови з розвиненою внутрішньою флексією (семітські) та інфіксацією (на зразок низки індонезійських).
Окрім того, для мов, у яких словоформи взагалі не поділяються на морфеми (так звані “ізолюючі” – на зразок в`єтнамської), морфологічний аналіз повністю зводиться до пошуку в словнику, а решта операцій, що передбачені у загальній схемі алгоритму морфологічного аналізу, для “ізолюючих” мов не потрібні.
Обмеження стосовно типу алгоритмів полягає в тому, що загальна форма морфологічного аналізу охоплює лише такі алгоритми, в основі яких полягає розбиття словоформ на морфеми від початку до кінця (для мов з латинською та кириличною графікою – зліва направо). Можливий інший підхід, за якого розбиття словоформ починається з кінця. Найкращим розв`язком, очевидно, було б узагальнення та гнучке поєднання обох підходів.
Термінологія
Перш ніж перейти до опису загальної схеми, зупинимося на деяких термінах, якими нам доведеться користуватися надалі.
Як вже говорилося, морфологічний аналіз – це обробка взятих окремо словоформ. Морфологічний аналіз полягає в такому: словоформа розбивається на морфеми (за умови, якщо таке розбиття можливе) шляхом пошуку морфем у спеціальних списках, де кожній морфемі відповідає певна інформація; потім із інформацій до морфем будується загальна інформація до словоформи.
В даному описі морфема не визначається: це об`єкт окремого дослідження. Морфеми подаються списком. В алгоритмі морфологічного аналізу, що описується, як морфеми взято практично ті самі елементи, що їх вважають морфемами в лінгвістиці. Однак слід мати на увазі основні відмінності двох типів:
1.Оскільки ми маємо справу з письмовим текстом, а більшість лінгвістичних праць – з усною мовою, то поділ на морфеми, що здійснюється для алгоритму морфологічного аналізу, інколи не співпадає з тим, що прийнятий в лінгвістиці.Розбіжність між написанням та вимовою (та, зокрема, відсутність наголосу у письмовому тексті) відбивається також на зовнішньому (графічному чи звуковому) боці морфем. Морфеми, що відрізняються графічно, можуть мати однакове звучання: -ом (ор. відм. однини) та –ам (дав. відм. множини) в таких словоформах, як лаком – лакам або муром – мурам. З іншого боку, морфеми, що мають різне звучання, можуть співпадати графічно: -и (род. відм. однини) та –и (наз.-знах. відм. множини) в таких словоформах, як казки – казки.
Алгоритм працює лише з графічними формами морфем.
2.Оскільки в багатьох лінгвістичних працях під час поділу словоформ на морфеми не завжди послідовно розрізняють синхронічний та діахронічний аспекти, прийнятий поділ, що виправданий в низці відношень, може виявитися незручним з точки зору автоматичного аналізу та перекладу. В таких випадках доводиться відступати від прийнятого поділу. Наприклад, словоформа відношення зазвичай поділяється на від-нош-енн-я, а для алгоритму, що описується – на відношенн-я.
Ми не будемо спеціально викладати тут тих міркувань, за якими приймається певний поділ тієї чи іншої конкретної словоформи. Запропонований алгоритм морфологічного аналізу (у загальній формі) абсолютно не залежить від того, які конкретні елементи обрано як морфеми. Якщо прийняти інший поділ на морфеми, це змінить лише склад списків морфем, але не сам алгоритм. А тому тимчасово можна вважати, що, не уміючи точно визначати морфеми, ми обмежуємося їх емпіричним підбором (базуючись на інтуїції та вимогах перекладу) та подаємо їх простим перерахуванням.