Загальна форма морфологічного аналізу текстів
Нижче описано один із можливих варіантів такого загального алгоритму морфологічного аналізу.Однак слід мати на увазі, що загальну схему морфологічного аналізу викладено тут не повністю. Річ у тім, що, хоча пошук словоформ у словнику основ принципово не відрізняється від пошуку залишків у таблиці суфіксів, пошук у словнику основ являє собою певною мірою самостійну задачу. Це пов`язано з численністю основ. Великий обсяг словника основ (порівняно до таблиць суфіксів) зумовлює специфічні умови пошуку в ньому, вилучення інформації тощо. Тому вважається за доцільне умовно поділити морфологічний аналіз на два алгоритми: “Пошук у словнику основ” та “Власне морфологічний аналіз”. Тут взагалі не розглядається перший алгоритм. Не розглядається також відтинання префіксів, оскільки воно тісно пов`язане з пошуком у словнику основ і є
розділом цієї частини аналізу. Мова йде про морфологічний аналіз з того моменту, коли від словоформи вже відділені префікси та одна основа. Маємо на увазі морфологічний аналіз відповідного залишку і вважаємо, що ми маємо словарну інформацію про основу, що відітнули (а також про префікси, якщо вони були).
Загальний вигляд алгоритму морфологічного аналізу
В загальному вигляді алгоритм морфологічного аналізу (без пошуку в словнику основ) складається з п`яти частин.
1.Частина А – “Загальні правила” – є основною частиною алгоритму (власне алгоритмом) і являє собою набір правил, що визначають послідовність операцій та взаємодію решти частин.
2.Частина Б – “Список суфіксів” – містить перелік суфіксів даної мови разом із деякими вказівками, що необхідні для їх правильної обробки (“допоміжними інформаціями”).
3.Частина В – “Список інформацій до суфіксів” (інакше – “Стандартний запис”), містить перелік “основних інформацій” до тих суфіксів, що містяться у частині Б (під “основною інформацію до суфіксу” мається на увазі та інформація, що її має бути перенесено до інформації до словоформи).
4.Частина Г – “Нестандартний запис” – є набором вказівок про індивідуальні особливості суфіксів співвідносно до особливостей основ а також про те, як ці особливості мають бути враховані.
5.Частина Д – це таблиця, де перераховано випадки, коли повністю співпадають деякі форми від різних основ (при тому, що інші форми від цих слів – різні).
П`яти частин, що наведені вище, достатньо для представлення алгоритму морфологічного аналізу цілої низки мов. Частини А, Б, та В необхідні; частини Г та Д можуть бути відсутні.
Частини алгоритму можуть поділятися на розділи.
Перейдемо до опису внутрішньої будови частин алгоритму.
Внутрішня будова алгоритму
Частина А – “Загальні правила”
Частина А являє собою певну послідовність правил, що викладені в термінах так званих алгоритмічних операторів. Оператор – це стандартна частина алгоритму, що повторюється, для якої можна створити стандартну програму реалізації.
Частина А складається з десяти розділів; серед них розділи І. ІІІ, V та VI є обов`язковими для будь-якого алгоритму, а решта розділів може бути відсутня.
Кожний розділ має виконувати певну змістовну задачу, і його робота завжди призводить до певного результату. Для всіх розділів визначено, які результати (умовно) вважати позитивними, а які – негативними. Для кожного розділу також вказується , куди слід переходити у випадку того чи іншого результату.