Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
Організація компонента СінАн
Компонент СінАн організований у вигляді блоків, які предназначені для розв’язання двух вище зазначених задач. Перша задача виконується в процесі роботи перших двух блоків СінАн: блок аналізу іменникових вузлів і блок аналізу складних речень. Друга задача починає виконуватися одночасово з першою для відповідних типів вузлів. Крім того, розв’язанням цієї задачі повністю зайнятий третій блок – блок аналізу простих речень. СінП можна вважати повністю закінченим лише після перевірки його узгодженості з сементичним словником і уточнення тих частин синтаксичної структури, для яких необхідні відомості, що витікають з результатів СемАн. Останній, четвертий блок СінАн працює з вузлами, синтаксична функція яких вже встановлена.
Інструменти аналізу, що використовуються в компоненті СінАн
Вхідною для компоненти СінАн є послідовність вузлів з морфолого-синтаксичною інформацією, що отримана на попередніх етапах. В процесі СінАн для обробки цієї інформації використовуються такі інструменти аналізу: аналізатор, алгоритми, списки правил, позиційна таблиця.
В системі ФРАП аналізатор використовується тричі. З його допомогою на лінійно упорядкованій множині вузлів встановлюються всі можливі зв’язки залежності, що указані в аналізаторі.
Для аналізу в термінах членів речення повністю фільтрована організація СінАн неможлива, оскільки вхідна для СінАн множина вузлів (результат морфологічного аналізу) не є множиною членів речення. Потрібен процес формування вузлів структури членів речення. Таким чином, перші два блоки за необхідністю описані як процес, тобто алгоритмічно. Опис у вигляді алгоритму третього блоку заснований на гіпотезі про значимість порядку обробки вузлів для автоматичної побудови структури в термінах членів речення. Алгоритми працюють з вже сформованою аналізатором множиною всіх можливих гіпотез про зв’язки вузлів, тобто метод фільтрів застосовується, но процесом їх застосування керують спеціальні алгоритми. Повністю фільтровим СінАн стає тільки в процесі взаємодії СінП з СемП.
Списки правил містять правила дозволу омонімії для різних етапів аналізу, типи узгоджуваності, деякі фільтри.Позиційна таблиця починає формуватися в другому блоці аналізу. В ній міститься інформація про порядок слідування головних вершин та про позиційну характеристику в простому реченні тих його вузлів, для яких СінАн ще не завершений. Вона використовується для визначення правильності набору головних вершин для фрази в кінці роботи другого блоку і в складній фразі для визначення порядку обробки простих речень в процесі роботи третього блоку. Позиційна характеристика вузлів використовується в четвертому блоці.
Блоки аналізу компонента СінАн
Блок аналізу іменникових вузлів
В цьому блоці розв’язуються 4 задачі: 1) встіновлюються функціональні зв’язки app(a,b), де а – прикладка b, та attr(a,b), де а – узгоджене означення b; 2) аналізуються деякі види твору; 3) структурно відновлюються елідіровані вершини іменникових груп; 4) елімінуються з представлення прийменники, артиклі і проаналізовані сурядні сполучники.
В першій частині блоку синтаксичний аналізатор встановлює зв’язки app та attr. Встановлюються також допоміжні зв’язки prep(a,b), де а – ім’я або інфінітив, b - прийменник та det(a,b), де а – артикль, b – ім’я.
В дугій частині блоку аналіза іменникових вузлів з представлення фрази елімінуються прийменники, артиклі та проаналізовані сурядні сполучники, які поміщаються в інформацію к пов’язаним до них повнозначним словам; відповідно елімінуються і допоміжні зв’язки.
Блок аналізу складних речень
Перед початком роботи цього блоку в представленні аналізатором встановлюється зв’язок dist та всі можливі функціональні зв’язки, крім вже встановлених в першому блоці та сурядних.
Блок аналізу складних речень складається з двох частин.