Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
Теоретичною основою СінАн, що реалізований в системі ФРАП, є граматика членів речення. До засобів аналізу крім граматики відноситься також словник. В системі ФРАП на етапі аналізу використовуються 4 словника: словник основ, словник оборотів, семантичний словник та словник конструкцій. Словники оборотів і конструкцій використовуються у відповідних компонентах для аналізу словосполучень. Семантичний словник містить повний набір інформації різних видів про значення лексичної одиниці, а також засоби синтаксичної реалізації її валентностей. СінАн працює після компоненти СемАн (Семантичний аналіз).
Синтаксичне представлення (СінП)
СінП будується для фрази, оскільки саме вона є об’єктом СінАн. СінП складається з вузлів і відношень, що задані на множині вузлів.
Вузлами виступають лексичні одиниці, що мають при собі морфолого-синтаксичну інформацію, в тому числі сполучення службових слів з повнозначними та фразеологічні словосполучення, що об’єднані в один вузел на досинтаксичному етапі аналізу і в процесі СінАн, а також знаки пунктуації. Крім того введені штучні вузли.На множині вузлів задано відношення лінійного порядку і відношення “несумісності”. В процесі СінАн між вузлами встановлюються зв’язки залежності з функціональною міткою та додаткові зв’язки ref та dist, а також відношення тотожності. Функціональні зв’язки утворюють синтаксичну структуру простих речень; зв’язки ref з’єднують штучний вузол, що символізує речення або фразу, з вершиною цього речення або з головним реченням фрази; зв’язок dist поєднує дві частини складного слова або парні знаки пунктуації. Відношення тотожності використовуються, наприклад, при аналізі твору.
Способи відображення неоднозначності результатів аналізу в СінП
В компоненті СінАн ситеми ФРАП для фрази будується одне представлення, яке і містить в собі всі види синтаксичної неоднозначності результатів аналізу. Нерозв’язана на ранніх етапах неоднозначність зберігається в представленні до тих пір, поки результати роботи наступного етапу аналізу не дозволять її виявити.
В СінП зберігаються такі неоднозначності:
-Неоднозначність функціональних зв’язків – наявність зв’язків, що порушують синтаксичну структуру.
-Неоднозначність результатів морфологічного аналізу словоформи – морфологічна омонімія. В цьому випадку використовується складний номер вузлу: перше число позначає порядковий номер вузла у фразі, інше – номер омоніма.
-Неоднозначність поділу на вузли. Для представлення цієї неоднозначності використовується відношення несумісності.
Компонент СінАн системи ФРАП
Задача компонента СінАн
Задачею компонента СінАн є побудова для фрази СінП в термінах граматики членів речення. Для цього необхідно: 1) сформувати множину вузлів – членів речення; 2) виявити синтаксичну функцію кожного з цих вузлів.
1)задача. Про деякі слова фрази заздалегідь відомо, що вони не є членами речення. Для французької мови це: допоміжні слова – частини аналітичних форм часу, залогу, ступенів порівняння, заперечувальні частки, компоненти фразеологічних словосполучень, які не можна розкласти, артикль, сполучники, прийменники. Крім того, заздалегідь відомо, що членами речення є прості речення в складі складного. Таким чином перша задача розбивається на дві підзадачі: 1) елімінування із множини вузлів тіх слів фрази, які не є членами речення; 2) виділення простих речень в складному з формуванням штучних вузлів, що заміщають підрядні речення в головному.
2)задача. Передбачає побудову синтаксичної структури.
Компонент СінАн системи ФРАП організований у вигляді процесу, в якому ці дві задачі виконуються одночасово.