Морфологічний аналіз
3.Частина В – “Список інформацій до суфіксів” (інакше – “Стандартний запис”), містить перелік “основних інформацій” до тих суфіксів, що містяться у частині Б (під “основною інформацію до суфіксу” мається на увазі та інформація, що її має бути перенесено до інформації до словоформи).
4.Частина Г – “Нестандартний запис” – є набором вказівок про індивідуальні особливості суфіксів співвідносно до особливостей основ а також про те, як ці особливості мають бути враховані.
5.Частина Д – це таблиця, де перераховано випадки, коли повністю співпадають деякі форми від різних основ (при тому, що інші форми від цих слів – різні).
П`яти частин, що наведені вище, достатньо для представлення алгоритму морфологічного аналізу цілої низки мов. Частини А, Б, та В необхідні; частини Г та Д можуть бути відсутні.
Частини алгоритму можуть поділятися на розділи.
Перейдемо до опису внутрішньої будови частин алгоритму.
Внутрішня будова алгоритму
Частина А – “Загальні правила”
Частина А являє собою певну послідовність правил, що викладені в термінах так званих алгоритмічних операторів. Оператор – це стандартна частина алгоритму, що повторюється, для якої можна створити стандартну програму реалізації.
Частина А складається з десяти розділів; серед них розділи І. ІІІ, V та VI є обов`язковими для будь-якого алгоритму, а решта розділів може бути відсутня.
Кожний розділ має виконувати певну змістовну задачу, і його робота завжди призводить до певного результату. Для всіх розділів визначено, які результати (умовно) вважати позитивними, а які – негативними. Для кожного розділу також вказується , куди слід переходити у випадку того чи іншого результату.
Отже, частина А працює таким чином:
1.Під час морфологічного аналізу окремих словоформ відрізняють обробку “нормальних” випадків (розділи II-VI) та “особливих” випадків (розділи VII-X). “Нормальні” випадки – це словоформи, для яких було знайдено правильну основу та залишки яких (якщо залишки є) складаються лише із суфіксів, при цьому в цих суфіксах не мають місце графічні чергування. До “нормальних” випадків належать більшість словоформ тексту в таких мовах, як українська, російська, англійська, французька, угорська та ін. “Особливі” випадки – це або словоформи, для яких знайдено помилкову основу (внаслідок омонімії або спряженості основ), або словоформи із залишками, що містять, окрім суфіксів, ще й основу (“складні слова”), або словоформи, що мають графічні чергування в суфіксах. Словоформи, що відносяться до “особливих” випадків, зазвичай становлять меншість словоформ тексту.
2.Перед початком морфологічного аналізу будь-яка словоформа вважається “нормальною” і робиться спроба виконати “нормальну” обробку цієї словоформи. В більшості випадків це вдається зробити. Якщо ж під час “нормальної” обробки словоформа виявляється “ненормальною” (тобто один з розділів дає негативний результат), її передають на “особливу” обробку. Після “особливої” обробки (помилково знайдену словоформу замінюють іншою і т. д., див. нижче п. 5) словоформа повертається на “нормальну” обробку. Таким чином, “нормальна” обробка виконується над усіма словоформами, для яких потрібен морфологічний аналіз, а “особлива” – лише над деякими.
3.Обробка словоформ починається з вибору послідовності дій (розділ І): для деяких словоформ морфологічний аналіз взагалі не потрібен (так звані “незмінні слова”); для інших одразу з`ясовується необхідність “особливої” обробки, решта словоформ проходять “нормальну” обробку (при цьому під час аналізу вони можуть виявитися “особливими”).