Морфологічний аналіз
5.Вибір подальших дій після того, як завершено обробку наступної морфеми. Послідовність дій зазвичай визначається властивостями щойно обробленої морфеми.
Конкретний зміст цих п`яти основних моментів морфологічного аналізу змінюється в залежності від алгоритму, але самі ці моменти залишаються в принципі незмінними. Не обов`язково всі п`ять моментів мають місце: другий та четвертий можуть взагалі бути відсутні (наприклад, у мові, де немає морфем, що співпадають і де морфеми не мають індивідуальних особливостей). Важливо лише те, що для опису морфологічного аналізу вищенаведених моментів досить.
Найбільш складним із вказаних моментів морфологічного аналізу є другий – обрання потрібної морфеми у випадку омонімії, повної вкладеності та спряженості морфем. Якби в мовах не було всіх цих “небезпечних ” спів падань морфем, то морфологічний аналіз здійснювався б кількома стандартними, надзвичайно простими операціями. Взагалі, головна скланість автоматичного перекладу в цілому – це зовнішнє (в даному випадку, графічне) співпадання мовних елементів, що по-різному перекладаються й тому містять різну інформацію. Таке спів падання призводить до задачі розрізняння та вибору, без якої аналіз під час автоматичного перекладу зводився б до елементарних перетворень.
Природно. що проблема омонімії (в найширшому розумінні терміна), тобто задача розрізняння та вибору, посідає важливе місце в морфологічному аналізі. Морфологічний аналіз має забезпечувати правильний розбір таких випадків співпадання, які принципово (людиною) можуть бути проаналізовані під час розгляду ізольованих словоформ, без звертання до контексту. Повинно правильно розкладатися співпадання окремих морфем за умови, що не співпадають цілі словоформи. Не можуть і не повинні однозначного розкладатися випадки, коли має місце повне співпадання словоформ. Вважається за достатнє, коли всі такі випадки буде якимось чином виділено для подальшого розкладу.
Основні моменти морфологічного аналізу, що наведені вище, мають такий загальний характер, що самі по собі вони є тривіальними. Однак вони дозволяють мислити весь процес морфологічного аналізу чітко та компактно, хоча й у загальному вигляді. Для практичної розробки морфологічного аналізу ці основні моменти необхідно конкретизувати, точно описавши окремі алгоритми, за допомогою яких вони будуть здійснюватися і які всі разом складуть алгоритм морфологічного аналізу. Необхідно побудувати якийсь загальний алгоритм морфологічного аналізу, або розробити таку загальну форму для алгоритмів морфологічного аналізу, яка виявиться достатньою (хоча деколи й надто розширеною) для багатьох мов, що вже існують, а також теоретично можуть існувати.
Нижче описано один із можливих варіантів такого загального алгоритму морфологічного аналізу.
Однак слід мати на увазі, що загальну схему морфологічного аналізу викладено тут не повністю. Річ у тім, що, хоча пошук словоформ у словнику основ принципово не відрізняється від пошуку залишків у таблиці суфіксів, пошук у словнику основ являє собою певною мірою самостійну задачу. Це пов`язано з численністю основ. Великий обсяг словника основ (порівняно до таблиць суфіксів) зумовлює специфічні умови пошуку в ньому, вилучення інформації тощо. Тому вважається за доцільне умовно поділити морфологічний аналіз на два алгоритми: “Пошук у словнику основ” та “Власне морфологічний аналіз”. Тут взагалі не розглядається перший алгоритм. Не розглядається також відтинання префіксів, оскільки воно тісно пов`язане з пошуком у словнику основ і єрозділом цієї частини аналізу. Мова йде про морфологічний аналіз з того моменту, коли від словоформи вже відділені префікси та одна основа. Маємо на увазі морфологічний аналіз відповідного залишку і вважаємо, що ми маємо словарну інформацію про основу, що відітнули (а також про префікси, якщо вони були).
Загальний вигляд алгоритму морфологічного аналізу
В загальному вигляді алгоритм морфологічного аналізу (без пошуку в словнику основ) складається з п`яти частин.
1.Частина А – “Загальні правила” – є основною частиною алгоритму (власне алгоритмом) і являє собою набір правил, що визначають послідовність операцій та взаємодію решти частин.
2.Частина Б – “Список суфіксів” – містить перелік суфіксів даної мови разом із деякими вказівками, що необхідні для їх правильної обробки (“допоміжними інформаціями”).