АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА

(дипломна работа, София, ФМИ, 1995 г.)

2.4.5. Други възможности

Друг метод, който може макар и по изкуствен начин да доведе до същия успех, е да се използва като алгоритъм скандирането, но чак след като е сигурно, че думата, подложена на сричкопренасяне, не принадлежи на множеството на изключенията (това множество се състои от всяка дума, при обработката на която чрез 15-те правила се допускат грешки). За да се минимизира това множество, може да се изключат окончанията (разновидностите) на всяка една дума.

Трудно е да се каже кой от двата метода е за предпочитане. Вероятно лингвистите биха се насочили към първия, а програмистите – към втория. Трябва да се има предвид, че всеки метод, който се основава на изключения, подлежи на непрекъсната актуализация. Още повече, че в българския език навлизат все повече и повече нови думи, докато морфемите са нещо значително по-трайно и постоянно. Но това, по което и двата метода си приличат, е, че при търсене в големи речници и в двата случая е редно да се основаваме на хеширането и хештаблиците [30].

За тези, които държат на изцяло алгоритмичен подход без ползване на речници, може да се предложи едно компромисно решение – към всяко място за пренос (определено чрез простите правила 1-15) се добавя и тегло с вероятност за грешка. Така например статистически може да се провери, че ако имаме една дума w = a1a2 ... an-3an-2an-1an и според правилата са възможни преноси след an-3 и an-2, е по-вероятно да се сгреши, ако се пренесе след an-3. Също така, ако имаме група от съгласни в думата akak+1 ... ak+r, където ak+r< an-1 и ak > 1, то вероятността да се допусне грешка при пренос преди ak+2 е по-голяма, отколкото след ak. По-нататък следва по възможност да се удовлетвори преносът с най-малка вероятност за грешка. Засега обаче тази идея не е практически осъществима, тъй като програмите от графичния етап не са приспособени да работят с вграждане на изчислени вероятности при пренос от външни програми.

Накрая може да се отбележи, че при наличието на един пълен речник на българския език, в който са посочени правилните преноси на всяка една дума, сричкопренасянето като проблем отпада, тъй като всичко би се свело до прилагане на известни алгоритми за елементарно (макар и оптимизирано) търсене на дума в компютърен речник.

<< назад | отгоре | напред >>

Съдържание

0. Встъпление

1. Увод

2. Сричкопренасяне

2.1. Малко история

2.2. Правила за сричкопренасяне от 1983 г.

2.3. Метод на скандирането

2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип

2.4.1. Алгоритъм за откриване на морфема в дума

2.4.2. Алгоритъм за анализ на буква

2.4.3. Алгоритъм за анализ на дума

2.4.4. Алгоритъм за анализ на текст

2.4.5. Други възможности

3. Автоматизирано откриване и отстраняване на грешки в текст

3.1. Дефиниции и понятия

3.2. Често допускани грешки

3.3. Класификация на правилата

3.4. Примерна програмна реализация на локалните правила

3.4.1. Нови дефиниции, променливи, флагове и множества

3.4.2. Таблица на локалните правила

3.4.3. Функции, необходими за реализация на локалните правила

3.5. Глобални правила

3.5.1. Класификация на думите в текст на равнище знакове

3.5.2. Функции, необходими за реализация на глобалните правила

3.5.3. Функции и идеи, които предстоят да бъдат осъществени

4. Някои метрики в текстообработката

4.1. Текстови и шрифтови метрики

4.2. Сложност на текст

4.3. Професионализъм на предпечатната подготовка

4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове

4.3.2. Премахване на излишното форматиране

4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите

5. Заключение

6. Литература

7. Приложениe

7.1. Списък на книгите, върху които са направени експерименти

7.2. Някои статистики и резултати от проведени изследвания