Загальна форма морфологічного аналізу текстів
Серед морфем розрізнятимемо основи та афікси.
Терміни “основа” та “афікс” вживаються тут не в своєму традиційному значенні. Прийняте у лінгвістиці розрізняння коренів, основ, кореневих основ і т. ін. для наших цілей є несуттєвим, і все це позначається спільним терміном “основа”. Визначення цього терміну ми не даємо; ми подаємо основи списком. Однак, можна вказати такі властивості основ:
1.Будь-яка словоформа містить принаймні одну основу (може бути й більше).
2.Основи складають переважну більшість морфем і є численними. У загальнолітературній мові кількість основ сягає сотень тисяч; у текстах із спеціальних галузей знання вона зменшується до кількох тисяч (або десятків тисяч).
3.Одна й та сама основа зустрічається в порівняно невеликій кількості різних словоформ – від однієї до кількох десятків.
4.Від основи до загальної інформації до словоформи надходять значення більшості ознак, що складають цю інформацію.
Морфеми, що не є основами, називаються афіксами (тобто не проводиться традиційної різниці між афіксами та флексіями). Афікси, що зустрічаються перед основами, називаються префіксами; афікси, що зустрічаються позаду основ, називаються суфіксами. Таким чином, суфіксами вважаються не тільки морфеми словотворення, але також і так звані “тематичні голосні”, “з`єднувальні звуки” (а точніше – “літери”), флексії і т.ін.
Властивості афіксів певним чином протилежні властивостям основ:
1.Афікси зустрічаються не у всіх словоформах.
2.Афікси завжди складають меншість морфем, їх загальна кількість невелика: від кількох десятків до кількох сотень (залежно від мови).
3.Один і той самий афікс зазвичай зустрічається в порівняно великій кількості різних словоформ – від кількох десятків до кількох тисяч і навіть десятків тисяч, але ніколи не менше, ніж у двох словоформах (основа може зустрічатися і в одній словоформі, співпадаючи з нею).
4.Від афікса до загальної інформації до словоформи надходять значення меншості ознак, що складають цю інформацію.
В даному описі афікси також подаються списком.
В процесі розробки алгоритмів, а саме – під час складання словника, зручно задавати лише афікси (оскільки у мовах, які ми розглядаємо, їх кількість відносно невелика) та, виходячи з прийнятого списку афіксів, виділяти основи (з поданих у тексті словоформ) за допомогою певних правил.
Частина словоформи, що залишається після відкидання будь-яких морфем від початку словоформи, називається залишком. Під час аналізу залишок весь час зменшується по мірі послідовного відтинання морфем – до повного зникнення, що означає кінець аналізу для даної словоформи. Наприклад, під час аналізу словоформи перекомпілювати після відтинання префікса пере- залишком буде –компілювати, після відтинання основи компіл- залишається –ювати, після відтинання суфікса –юва– залишок буде –ти, і зрештою, після відтинання суфікса –ти залишок зникає і аналіз закінчується.
Дві морфеми, що містять різну інформацію, можуть графічно співпадати (повністю або частково) одна з одною. Ми ж роздивимося лише такі випадки співпадання, коли принаймні одна з морфем повністю входить до складу іншої. Решта випадків співпадання не впливають на правильність морфологічного аналізу й тому нас не цікавлять.Як приклад повної вкладеності одної морфеми в іншу можна навести суфікс –ами (ор. відм. мн.), що повністю вкладається в основу намист- слова намисто, що призводить до неправильного розкладу н-ами-ст-о
Особливо важливі два приватних випадки співпадання морфем.