Загальна форма морфологічного аналізу текстів
Отже, частина А працює таким чином:
1.Під час морфологічного аналізу окремих словоформ відрізняють обробку “нормальних” випадків (розділи II-VI) та “особливих” випадків (розділи VII-X). “Нормальні” випадки – це словоформи, для яких було знайдено правильну основу та залишки яких (якщо залишки є) складаються лише із суфіксів, при цьому в цих суфіксах не мають місце графічні чергування. До “нормальних” випадків належать більшість словоформ тексту в таких мовах, як українська, російська, англійська, французька, угорська та ін. “Особливі” випадки – це або словоформи, для яких знайдено помилкову основу (внаслідок омонімії або спряженості основ), або словоформи із залишками, що містять, окрім суфіксів, ще й основу (“складні слова”), або словоформи, що мають графічні чергування в суфіксах. Словоформи, що відносяться до “особливих” випадків, зазвичай становлять меншість словоформ тексту.
2.Перед початком морфологічного аналізу будь-яка словоформа вважається “нормальною” і робиться спроба виконати “нормальну” обробку цієї словоформи. В більшості випадків це вдається зробити. Якщо ж під час “нормальної” обробки словоформа виявляється “ненормальною” (тобто один з розділів дає негативний результат), її передають на “особливу” обробку. Після “особливої” обробки (помилково знайдену словоформу замінюють іншою і т. д., див. нижче п. 5) словоформа повертається на “нормальну” обробку. Таким чином, “нормальна” обробка виконується над усіма словоформами, для яких потрібен морфологічний аналіз, а “особлива” – лише над деякими.3.Обробка словоформ починається з вибору послідовності дій (розділ І): для деяких словоформ морфологічний аналіз взагалі не потрібен (так звані “незмінні слова”); для інших одразу з`ясовується необхідність “особливої” обробки, решта словоформ проходять “нормальну” обробку (при цьому під час аналізу вони можуть виявитися “особливими”).
4.“Нормальна” обробка складається з таких п`яти етапів:
а) вибір таблиці суфіксів, у якій буде вестися пошук залишку (розділ ІІ);
б) пошук залишку в обраній таблиці (розділ ІІІ);
в) вибір потрібного суфікса з декількох омонімічних або спряжених – звісно, якщо знайдений суфікс має такі (розділ ІV);
г) перенесення інформації від суфікса, що знайдено, до інформації до словоформи (розділ V);
д) вибір подальших дій залежно від властивостей суфікса, що оброблено (розділ VI).
5.“Особлива” обробка вводиться заради вказаних вище (см. п.2) ускладнень, що притаманні “особливим” випадкам. Шляхом послідовних перевірок встановлюється, яке саме ускладнення має місце, і залежно від цього виконується одна з дій:
а) одну з декількох омонімічних (або спряжених) основ, що її вибрано невірно для даної словоформи, замінюють на іншу (розділ VII);
б) відтинається чергова основа складного слова (розділ VIII);
в) розбираються випадки вкладення суфіксів у наступну основу складного слова (розділ IX);
г) графічні чергування зводяться до прийнятої форми (розділ Х).
Частина Б – “Список суфіксів”
Частина Б являє собою список суфіксів, оформлений у вигляді однієї або кількох таблиць.
Вирішення питання про те, розміщувати суфікси в одній чи в кількох таблицях, залежить від властивостей певної мови. Точний характер цієї залежності поки що невідомий, а тому доводиться керуватися загальними приблизними міркуваннями:
1.Якщо загальна кількість суфіксів у даній мові невелика (наприклад, близько двох десятків в англійській мові), їх можна об’єднувати в одну таблицю. Якщо ж загальна кількість суфіксів у даній мові велика (більше ста п`ятдесяти в українській мові), то є сенс розташувати їх в окремих таблицях відповідно до частини мови; при цьому звертання до тієї або іншої таблиці визначається ознакою частини мови у основи.