Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы






НазваниеЛекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы
страница4/14
Дата публикации25.01.2015
Размер1.61 Mb.
ТипЛекция
l.120-bal.ru > Информатика > Лекция
1   2   3   4   5   6   7   8   9   ...   14

Лекция 6

Знаковые системы.
В самом общем виде знания в памяти компьютера представляются в виде некоторой знаковой системы. Знаковые системы изучает наука семиотика. Основным понятием семиотики является понятие знак.

Знак — это объект или событие, которые способны что-то обозначать, т.е. указывать на некоторый другой объект, и что-то означать, т.е. иметь некоторый смысл. Например, «Луна» обозначает конкретный физический объект и имеет смысл «естественный спутник Земли»; знак «π » обозначает число 3.14, имеет смысл «отношение длины окружности к диаметру».

Не все объекты, сопоставленные другим объектам, выступают в качестве знаков. Например, паспорт, квитанции или гардеробные номерки не являются знаками. С понятием знак непосредственно связаны понятия денотат и концепт знака. Денотат — это объект, обозначаемый данным знаком, а концепт — свойство денотата, выражаемое знаком. Концепт определяет свой денотат. Отношение между знаком, его концептом и денотатом выражает так называемый семиотический треугольник, или треугольник Фреге (см. рис. 1).



Рисунок : Семиотический треугольник

Когда знак реально вступает во взаимодействие со своим денотатом и концептом, возникает знаковая ситуация. Возможны знаковые ситуации, в которых одна из вершин семиотического треугольника отсутствует (рис. 2).



Поскольку, по мнению Г.Фреге, знак обозначает денотат через посредство своего концепта, изобразим семиотический треугольник вытянутым в цепь (3, К, Д) (рис.3).


Соответствия между знаками, концептами и денотатами не являются взаимнооднозначными.

Отметим основные особенности употребления знаков (рис. 4).

Знаки z1 , z2 называются синонимичными, если они выражают один и тот же концепт. Знаки z1 , z2 ,каждый со своим концептом, называются денотативно тождественными, если они обозначают один и тот же денотат.

Знак z называется омонимичным (или многозначным), если он может выражать более чем один концепт. Знак z называется денотативно неоднозначным, если он при одном и том же концепте может обозначать различные денотаты. Знак z автономен, если его денотатом в данной знаковой ситуации выступает сам знак.




Рисунок : Неоднозначность элементов семиотического треугольника

Из семиотического треугольника следует, что знак имеет две знаковые функции: обозначает не только денотат, но и его концепт — десигнат данного знака. Как следует из рис. 4, один и тот же знак может обозначать разные денотаты. Объем знака — это объем поля денотатов. Важны ми понятиями, имеющими к треугольнику Фреге непосредственное отношение, являются понятия экстенсионал и интенсионал.


Рисунок : Знаковая система




Экстенсионал знака определяет конкретный класс всех его допустимых денотатов. Если имя есть предложение, высказывание (т.е. запись некоторого суждения), то его денотатом служит истинное значение этого предложения (высказывания, суждения), т.е. «истина» или «ложь».

Интенсионал знака определяет содержание понятия и характеризует концепт. Интенсиональность знака зависит не только от истинных его значений, но и от прагматических оттенков этого смысла.

Знаковая система (рис. 5) — это множество знаков с регулярными отношениями между ними, отражающими регулярные отношения между их концептами и денотатами. В знаковой системе выделяют три аспекта: синтактику, семантику и прагматику.

Синтактика изучает внутреннее устройство знаковой системы, правила построения сложных знаков из простых. Для естественных языков синтактика выступает в виде синтаксиса, определяющего правильное построение предложения и связного текста. В искусственных языках синтактика определяет правильное логическое построение потенциально осмысленных выражений.

Семантика изучает соотношения, с одной стороны, между знаками и их денотатами, с другой между знаками и их концептами (смыслами).

Прагматика изучает знаки с точки зрения их отношения к адресату сообщений.

Морфологический анализ и синтез форм слов
Реализация полного лингвистического анализа текстовой информации предполагает решение следующих задач:

лексического анализа;

морфологического анализа;

синтаксического анализа;

семантического анализа.

Перечень данных задач упорядочен по логическим этапам реализации полного лингвистического анализа текстовой информации. Каждая последующая задача является более трудоемкой, по сравнению с предыдущими, что обусловлено возрастающей сложностью ее формализации. Реализация задач лингвистического анализатора зависит от особенностей обрабатываемого (обрабатываемых) языков, на которых изложена текстовая информация.

Таким образом, перспективные поисковые системы (машины) должны включать в свой состав программно-технические комплексы, реализующие полный перечень задач лингвистического анализа текстовой информации.

Лучшие из существующих поисковых систем выполняют функции морфологического анализа текстовой информации (как индексируемых текстов, так и запросов пользователей), а также выполняют отдельные элементы синтаксического анализа предложений. Алгоритмы работы существующих поисковых систем основаны на поиске в заранее проиндексированных текстах ключевых слов. Запрос пользователя поисковой системы состоит из ключевых слов, и может включать в себя управляющие символы формализованного языка запросов. Использование языка запросов обеспечивает более точные результаты поиска, однако, требует от пользователя его знания. Язык запросов для каждой поисковой системы уникален, поэтому на практике пользователи редко им пользуются. Это обуславливает снижение качества поиска за счет увеличения количества найденных документов с неадекватной информацией и необходимости их последующего просмотра и анализа.

Синтаксический анализ текстовой информации позволяет выделить семантические элементы предложения — именную группу, терминологическое целое, предикативную основу. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления семантики информации.

В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во много обусловлено недостаточно полной проработкой научного направления создания систем искусственного интеллекта.

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

Морфологический анализ (Part-of-Speech-tagging)
Задача морфологического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте (каждому слову поставить в соответствие лексико-грамматический класс).

Данная задача может быть выполнена для русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка. Для проведения морфологического анализа русскоязычных текстов обычно используется компьютерная версия грамматического словаря Зализняка, а для проведения морфологического анализа англоязычных текстов используется компьютерная версия грамматического словаря Мюллера. Для улучшения точности морфологического анализа в случае определения частей речи многозначных слов используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов использует два источника информации:

Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико - грамматических классов, которые могут иметься у данной словоформы.

Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.

Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами.

Оба подхода дают примерно одинаковый результат. При их использовании раздельно, либо в различных комбинациях, точность лексико-грамматического анализа улучшается до 96-98%. Поскольку точность при лексико-грамматическом анализа текста вручную также имеет определенную погрешность (0,5-2%), можно считать, что точность лексико-грамматического анализа в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.



Синтаксический анализ (Text Parsing)
В отличие от морфологического анализа текста, синтаксический анализ — развивающаяся область прикладной лингвистики. Цель синтаксического анализа — автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что, имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных количество подходов к синтаксическому анализу текстов, которые реализованы в следующих программных продуктах:

Ergo Linguistic Technologies Parser;

Functional Dependency Grammar;

Link Parser;

Star4Win (STARLING).

В последнее время над задачами синтаксического анализа предложения работает множество исследовательских групп, и на настоящий момент можно считать, что в рамках синтаксического анализа предложения частично решена и уже нашла применение в производстве задача автоматического выделения именных групп. Что же касается полного синтаксического разбора предложения, данная проблема в полном объеме в настоящее время еще не решена.
Семантический анализ
Целью семантического анализа является определение информативности текстовой информации и выделение наиболее важной информации из обрабатываемого текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости наличия совершенного аппарата экспертной оценки качества информации. Это, в свою очередь, требует наличия априорно в самой системе семантического анализа гигантского объема полной информации по оцениваемым рубрикам для проведения оценки смыслового содержания текста. Таким образом, теряется всякий смысл создания поисковой системы, которая должна иметь в своем составе полную информацию по достаточно широкому кругу оцениваемых рубрик, и которая будет осуществлять оценку смыслового содержания индексируемых документов. Это обусловлено тем, что поисковая система перерождается в громоздкую энциклопедическую систему оценки информативности индексируемых текстов.

Поэтому, семантический анализатор поисковой системы должен обеспечивать выделение смысловой информации индексируемых текстов на основе обобщенного критерия о встречающихся именных группах, группах терминологических целых, предикативных основах в условиях отсутствия априорно полной информации по оцениваемым рубрикам.

В настоящее время отсутствуют поисковые системы, реализующие в данном понимании семантический анализ текстовой информации.

При создании поисковых систем, основанных на рубрикаторах, могут быть использованы алгоритмы автоматического реферирования текстовой информации (Automatic Text Summarization). На рынке присутствует очень небольшое количество традиционных программ реферирования, то есть таких, которые выделяют наиболее весомые предложения из текста используя статистические алгоритмы, либо слова-подсказки (Inxight Summarizer, Extractor, TextAnalyst).

Таким образом, в настоящее время не решена задача создания поисковой машины, реализующей в полном объеме лингвистическую обработку текстовой информации.
Лекция 7

Объекты и свойства
Каждая из автоматизированных информационных систем (АИС) соотносится определенной части реального мира, именуемой предметной областью, и является сферой проблемной ориентации этой системы. При этом каждая автоматизированная система ориентирована на выполнение определенных функций в соответствующей ей области применения.

При определении предметной области объект должен иметь относительно целостный характер и для целей обработки информации обладать конечным набором свойств. Под свойством понимается некоторая его характеристика, позволяющая устанавливать его сходство и различие по отношению к другим объектам. При этом свойства объекта могут быть индивидуальными и общими, присущими лишь единичным экземплярам и целому классу объектов соответственно. Например, индивидуальными свойствами отличаются друг от друга животные одного вида, станки одной модели, товары одного наименования, а общие свойства имеются у одного вида растений, у материальных ценностей различных наименований, объединенных в одну группу. Существенными являются свойства объекта, по которым он может идентифицироваться в модели предметной области.

Под отношением понимается форма связи между объектами. Отношения подразделяются на внешние и внутренние. Внешние отражают связи между объектами, не затрагивая при этом их свойств. Например, внешними являются структурные отношения между элементами некоторой системы.

Внутреннее отношение выявляет свойства объектов или обусловливает зависимость свойств объектов от данного отношения.

Описание предметной области должно вестись на общедоступном естественном языке. Для этого достаточно использовать предложения естественного языка, позволяющие именовать объекты и формулировать утверждения о том, что они обладают некоторыми свойствами, либо о том, что конкретные объекты находятся в определенных взаимоотношениях. Однако машины могут оперировать только определенной формой описаний предметной области.

При этом под описанием предметной области на формальном языке всегда предполагается соотнесение с ее описанием на естественном языке. Введение формального языка приводит к необходимости однозначного перевода описания на одном языке (естественном или формальном) в описание на другом языке и к необходимости их эквивалентной интерпретации.

Эквивалентная интерпретация достигается введением абстрактных состояний предметной области, определенных формально и служащих однозначной интерпретацией описания состояния как на естественном, так и на формальном языке. См. рис. 6

Описания на естественном и формальном языках эквивалентны, если одно из них является результатом перевода другого и если их интерпретацией служит одно и то же абстрактное состояние.

Простая модель, удовлетворяющая указанным требованиям, отражает абстрактные состояния, как совокупность множества абстрактных объектов E, множества типов T (каждый тип Tj ∈ T есть T ∈T подмножество E = ∪Tj ) и совокупности отношений R, в которой каждое отношение Rj j имеет степень nj .

Интерпретация описания состояний предметной области на естественном языке IE A есть соответствие:

– фраз, однозначно именующих различные реальные объекты, различным абстрактным объектам из E;

– фраз, обозначающих свойства объектов, типам из T ;

– фраз, обозначающих взаимоотношения конкретных объектов, кортежам отношений из R.



1   2   3   4   5   6   7   8   9   ...   14

Похожие:

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconПлан ответа: Понятие экономической информационной системы. Информационные...
Вопрос: Жизненный цикл информационной системы (раскрыть основные этапы жизненного цикла информационной системы)

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconКонспект лекций по курсу сд. Ф корпоративные информационные системы
Лекция № Понятие о сетях. Корпоративные информационные системы. Структура и назначение кис. Характеристика. Требования к организации...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы icon2. Место дисциплины в структуре ооп бакалавриата
Целью освоения дисциплины «Архитектура информационных систем» является формирование у студентов комплексного представления об архитектуре...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconИуст-одесса -2013
Целью конференции является обмен опытом научно-практических исследований в: усовершенствовании информационно-ресурсного обеспечения...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconРабочая программа дисциплины сд. Ф. 03 Администрирование в информационных...
Целью дисциплины является изучение основ администрирования операционных систем, приложений, сетевых и информационных сервисов, баз...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconЛекция №4 Тема: Назначение и основные функции операционной системы
Даже пользователь взаимодействует со своими программами через интерфейс. Любые их команды, прежде чем попасть в прикладные программы,...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconРабочая программа дисциплины «Организационно-правовые способы обеспечения...
Целями освоения дисциплины (модуля) «Организационно-правовые способы обеспечения информационной безопасности» является приобретение...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconРабочая программа по дисциплине Программно-аппаратные средства обеспечения...
Ознакомление студентов с задачами и особенностями построения программно-аппаратных средств защиты информации от несанкционированного...

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconПредметная область информационной системы и ее анализ
Структурный (функциональный) подход к анализу предметной области информационной системы

Лекция 1 Место и назначение лингвистического обеспечения в информационных системах. Понятие информационной системы iconУчебный курс или дисциплина для автоматизированной системы обучения; и т п
Концептуальные основы, назначение и классификация автоматизированных информационных систем (аис)

Вы можете разместить ссылку на наш сайт:


Литература


При копировании материала укажите ссылку ©ucheba 2000-2015
контакты
l.120-bal.ru
..На главную