Загальна форма морфологічного аналізу текстів
Зміст
Зміст2
Передумови створення морфологічних процесорів3
Загальна форма морфологічного аналізу текстів4
Деякі обмеження4
Термінологія4
Основні моменти7
Загальний вигляд алгоритму морфологічного аналізу10
Внутрішня будова алгоритму10
Частина А – “Загальні правила”10
Частина Б – “Список суфіксів”12
Частина В – “Список інформацій до суфіксів”13
Частина Г – “Нестандартний запис”14
Частина Д – “Омонімія словоформ”14
Висновки15
Література16
Передумови створення морфологічних процесорів
Припустимо, що весь процес аналізу під час автоматичного перекладу поділяється на два основних етапи: морфологічний аналіз та синтаксичний аналіз.
Під морфологічним аналізом розуміють повну обробку взятих окремо (без будь-якого зв’язку з контекстом) словоформ. В результаті такої обробки кожна словоформа замінюється так званою інформацією – ланцюжком символів, що визначають усі ті властивості даної словоформи, що необхідні для подальшого аналізу (і подальшого перекладу). Інформації до словоформ використовуються на другому етапі аналізу – під час синтаксичного аналізу, в результаті якого встановлюються зв`язки між усіма словоформами тексту та між частинами складних речень.
Морфологічний аналіз – основний інструмент морфологічних процесорів. Створення повнофункціонального морфологічного процесору неможливе без детального розуміння принципів морфологічного аналізу.
За роки існування автоматичного перекладу було створено алгоритми морфологічного аналізу для багатьох мов. Природно, що ці алгоритми мають багато спільного. Однак мають місце також і значні розбіжності, що зумовлені властивостями будови відповідних мов, а також різними підходами.
Виникає природне бажання узагальнити досвід, що накопичено в цій галузі. Зокрема, бажано відповісти на таке питання: чи не можна виділити в алгоритмах морфологічного аналізу стандартні частини, що повторюються в багатьох алгоритмах? Чи не можна на базі стандартних частин, що виділено, розробити для алгоритму морфологічного аналізу таку спільну форму, щоб вона підходила (без суттєвих змін) для багатьох мов? Чи не можна, зрештою, встановити зв`язок між властивостями конкретних мов та деталями алгоритмів морфологічного аналізу таким чином, щоб загальну форму алгоритму можна було пристосувати до якоїсь конкретної мови відповідно до правил, що вказано заздалегідь (ці правила можуть бути приблизно такими: “За певної властивості мови із загальної форми треба(не треба) взяти певний елемент і т. ін.”)?