Стадии обработки языка
Общая схема обработки текстов инвариантна по отношению к выбору естественного языка. Независимо от того, на каком языке написан исходный текст, его анализ проходит одни и те же стадии. Первые две стадии (разбиение текста на отдельные предложения и на слова) практически одинаковы для большинства естественных языков. Единственное, где могут проявиться специфичные для выбранного языка черты, - это обработка сокращений слов и обработка знаков препинания (точнее, определение того, какие из знаков препинания являются концом предложения, а какие нет).
Последующие две стадии (определение характеристик отдельных слов и синтаксический анализ), напротив, сильно зависят от выбранного естественного языка. Последняя стадия (семантический анализ) также мало зависит от выбранного языка, но это проявляется только в общих подходах к проведению анализа.
Итак, любой вид машинной обработки естественного языка сообщений включает в себя обработку отдельных лексических единиц. В свою очередь, обработка отдельных слов — обработка составляющих слово частей: корня и аффиксальных частей. Структура подсистемы семантической обработки естественно-языковых сообщений может быть представлена в виде:
1. Модель текста
2. Модель фразы (группы слов)
3. Модель словосочетания (пары слов)
4. Модель слова
а) модель аффиксов
b) модель корня
Структура системы автоматизированной обработки естественного языка продиктована структурой смысла текста, ибо любой текст расчленяет на части именно смысл. Само слово, к примеру, нерасчленимо на части и именно смысл элементарных морфов позволяет выделить в нем минимальные значимые единицы.
Естественный язык представлен, с точки зрения морфологии, одноморфными и многоморфными словами. С точки зрения словообразования одноморфные слова это — непроизводные лексические единицы, многоморфные - производные. Семантика производного слова опирается, как правило, на смысл непроизводной лексической единицы, входящей в состав этого слова, и семантику аффиксального окружения (префиксы, суффиксы). Иными словами, смысл производного слова исходит из семантики морфов, входящих в состав производного слова, поэтому естественной частью модели языка является модель его словообразовательного уровня.