АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА

(дипломна работа, София, ФМИ, 1995 г.)

 

Ако търсиш правилата на хармонията, ще намериш познанието.

(надпис от храма в Луксор)

 

4.2. Сложност на текст

Def:     Под сложност на текст ще разбираме преди всичко три неща:

(1) графична сложност – наличие на таблици, схеми, изображения, брой колони, бележки под черта, специфични заглавия, библиографии, усложнена схема на разположение, различни шрифтове, големини, начертания и т.н.;

(2) чисто текстова – наличие на думи и знакове на латиница, брой непознати думи за един стандартен речник (например като този на ПРЕСТО и др.);

(3) математическа – наличие на формули, индекси, програмни текстове и т.н.

Сложността на един текст може да се получи по формулата:

сложност на текст = a formula ,

където

nj

е брой срещания на обекти, които принадлежат на една от трите групи на сложност;

Kj

тегло на всеки от трите компонента на сложността на текст като цяло;

fji

тегло на конкретния елемент от множеството;

yji

статистика от срещанията на конкретния обект в текста.

Стойностите Kj и fji зависят до голяма степен и от компютъра, на който се прави странирането на текста. Разликата между 386/DX и 486/DX е твърде чувствителна, особено що се отнася до обработка на изображение или други графични елементи.

Всеки текст може да се определи към някаква група (с различни равнища на вложеност), напр. художествена проза, делова проза, стихотворна форма и т.н. Художествената проза може да се раздели например на: приключенска литература, литература за деца (приказки), криминална литература, научна фантастика и т.н., деловата проза – на правна литература, научни доклади, монографии, шахматна литература и т.н. Не е нужно да се изброяват тук всички подразделения на литературата и текстовете като цяло, важното е, че всеки от тях има някои свои специфични особености (в чисто статистическо текстово отношение). Тези особености могат да се формализират математически например по следните характеристики:

Въз основа на изброените по-горе характеристики и проведени експерименти над текстове може формално (с известна степен на точност) да се конструира алгоритъм, който разпознава/класифицира даден текст.

<< назад | отгоре | напред >>

Съдържание

0. Встъпление

1. Увод

2. Сричкопренасяне

2.1. Малко история

2.2. Правила за сричкопренасяне от 1983 г.

2.3. Метод на скандирането

2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип

2.4.1. Алгоритъм за откриване на морфема в дума

2.4.2. Алгоритъм за анализ на буква

2.4.3. Алгоритъм за анализ на дума

2.4.4. Алгоритъм за анализ на текст

2.4.5. Други възможности

3. Автоматизирано откриване и отстраняване на грешки в текст

3.1. Дефиниции и понятия

3.2. Често допускани грешки

3.3. Класификация на правилата

3.4. Примерна програмна реализация на локалните правила

3.4.1. Нови дефиниции, променливи, флагове и множества

3.4.2. Таблица на локалните правила

3.4.3. Функции, необходими за реализация на локалните правила

3.5. Глобални правила

3.5.1. Класификация на думите в текст на равнище знакове

3.5.2. Функции, необходими за реализация на глобалните правила

3.5.3. Функции и идеи, които предстоят да бъдат осъществени

4. Някои метрики в текстообработката

4.1. Текстови и шрифтови метрики

4.2. Сложност на текст

4.3. Професионализъм на предпечатната подготовка

4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове

4.3.2. Премахване на излишното форматиране

4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите

5. Заключение

6. Литература

7. Приложениe

7.1. Списък на книгите, върху които са направени експерименти

7.2. Някои статистики и резултати от проведени изследвания