Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
В системі АРАП залучається два важливих типа семантичної інформації: 1) семантичні описи, або тлумачення, значимих лексичних, морфологічинх і пунктуаційних одиниць; 2) відомості про семантичне сполучення цих одиниць одна з одною.
Тлумачення використовуються двух типів: словникові і контекстні. Словникове тлумачення може бути приписано будь-якій одиниці, що включена в словник, і задає ту частину її смислу, яка повністю або частково зберігається в різних випадках реалізації цієї одиниці в тексті. Контекстуальне тлумачення характеризує словоформу і являє собою той фрагмент семантичного запису тексту, який відповідає данній словоформі в даному конкретному її використання, визначаючи можливості здійснення з нею тих чи інших семантичних операцій. Контекстуальні тлумачення будуються з словникових одиниць, що утворюють ГМП цих словоформ, з урахуванням наявного лексико-синтаксичного контексту та можливих в цьому контексті семантичних явищ.
Відомості про сполучення в системі АРАП носять характер семантичних вимог. З їх допомогою можна досить повно охарактеризувати всі найбільш суттєві аспекти смислової структури тексту і задати всі основні семантичні операції над цим текстом, які можуть знадобитися в процесі перекладу.Для формального запису використовуємих при цьому семантичних відомостей розроблена спеціальна символічна мова, яку можна реалізувати на ЕОМ. Вона заснована на використанні біля 100 “семантичних елементів” – символів, що позначають одиниці смислу. Семантичні елементи можуть з’єднуватися за певними правилами, утворюючи семантичні формули - семантичні дерева залежностей, які завдяки використанню формальних записів, зокрема, дужкового запису, можуть записуватися лінійно. На множині семантичних формул визначений ряд бінарних відношень, що моделюють смислові парадигматичні відношення в лексиці. В результаті в цих термінах можна записувати як словникові та контекстуальні тлумачення будь-яких одиниць, так і родо-видові лексико-семантичні класи, в які ці одиниці входять, а також семантичні інтерпретації їх синтаксичних валентностей і утворювані валентностні лексико-семантичні класи.
Ще однією важливою властивістю даного апарату є можливість спростити співвідношення між синтаксичним і семантичним представленням тексту у порівнянні з тим, як трактується це співвідношення в більшості розробок за моделлю “СмислТекст”. В зв’язку з тим, що структура семантичних формул зберігає основні властивості дерева залежностей, перехід від КСС тексту до його семантичного запису зводиться до простої заміни всіх слів і значимих морфологічних і пунктуаційних одиниць, наявних в КСС, їх контекстуальними тлумаченнями.
Прийнятий в системі АРАП підхід до опису синтаксису і семантики в їх взаємодії відповідає тим принципам, які закладені у формальну модель процесу перекладу, що є теоретичною базою цієї системи.
Алгоритм синтаксичного аналізу мовних текстів
Алгоритм, що буде тут розглядатися, являє собою частину більш складної системи, яка призначена для автоматичного синтаксичного аналізу текста. Під синтаксичним аналізом розуміється визначення смислових зв’язків між об’єктами тексту, тобто між словами в межах простих речень і між простими реченнями в складі складних.
Вся система в цілому складається, окрім алгоритму синтаксичного аналізу і деяких допоміжних алгоритмів (зокрема технічного характеру), з алгоритму морфологічного аналізу. Морфологічним аналізом називається обробка окремих словоформ, в результаті якої кожній словоформі ставиться у відповідність її інформація – характеристика, що відображає ті властивості словоформи, які необхідні для наступного синтаксичного аналізу. До початку синтаксичного аналізу увесь текст представляється у вигляді послідовності інформацій до словоформ, так що алгоритм синтаксичного аналізу має справу не з словоформами, а лише з відповідними інформаціями.
Для представлення результатів синтаксичного аналізу, тобто для відображення зв’язків між словами і між реченнями, використовується 31 відношення безпосередньої домінації (ВБД). Ці відношення бінарні; вони антирефлексивні, антисиметричні і антитранзитивні. Один з членів відношення БД вважається головним (господарем), інший – залежним (слугою). В простому реченні всі слова повинні бути залежними, крім присудка (який розглядається як “вершина” речення); в складному реченні повинні бути залежними всі речення, крім головного. Кожне слово повинно мати лише одного “господаря”, але може мати скільки завгодно “слуг”; кожне речення може мати двух “господарів” (обов’язково різного рівня: одного “господаря” – речення, а іншого “господаря” – слово в цьому реченні), а також скільки завгодно “слуг”. ВБД відображаються нумерованими стрілками, що направлені від “господаря” до “слуги”. Наприклад:
Можна сказати, що синтаксичний аналіз полягає в тому, щоб певним чином розставити в тексті нумеровані стрілки.