Зворотний зв'язок

Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми

26.3-е допоміжне, або відприйменникове (без двигателя, несмотря на отказ).

27. Обмежувальне (хотя бы один, только числа, лишь законченные работы).

28.Однорідне (операции и константы, целые или не целые числа, нумеруются, но не сдвигаются).

29.Квазіоднорідне (общая функциональная схема, обычного графического изображения).

30.Відсполучникове (как выход, как для решения).

31.Зіставлюване (чем дальше продвигаемся, тем яснее видим).

В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв’язки (в даній роботі це вказівки про постановку нумерованих стрілок).

В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об’єкти перетворюються на кінцеві, або приведені: приведена словоформа, приведений сегмент, приведена фраза. Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв’язки. Приклад:

.(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.

Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).

Необхідні відомості про текстові об’єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.

Більшість ознак, що утворюють інформацію, є синтаксичними розрізнюваними ознаками словоформ та сегментів.

Увесь процес аналізу зводиться послідовно на декількох рівнях. Спочатку з окремо взятих гіпотетичних словоформ, точніше з інформацій до морф, на які ці словоформи розбиваються, виводиться інформація до словоформ, потім з інформацій до словоформ виводиться інформація до гіпотетичних сегментів; і нарешті, з інформацій до гіпотетичних сегментів виводиться синтаксична структура фрази. Одночасно гіпотетичні об’єкти перероблюються на приведені.

Відповідно, аналіз підрозділяється на формологічний (розбір окремих словоформ і отримання інформацій до них) та синтаксичний (все інше). Синтаксичний аналіз, в свою чергу, поділяється на внутрішньосегментний (розбір окремих гіпотетичних сегментів і отримання інформацій до них) та міжсегментний (розбір всієї фрази в цілому).

В межах гіпотетичних сегментів багато зв’язків між словоформами не можуть бути встановлені зовсім або встановлюються неправильно, тому в інформації до сегменту застосовуються  - ознаки (вказівки про невстановлені, але передбачувані зв’язки) та  - ознаки (вказівки про можливі помилки у встановлених зв’язках). Ці ознаки використовуються при міжсегментному аналізі.


Реферати!

У нас ви зможете знайти і ознайомитися з рефератами на будь-яку тему.







Не знайшли потрібний реферат ?

Замовте написання реферату на потрібну Вам тему

Замовити реферат