Кафедра системного программирования






Скачать 467.8 Kb.
НазваниеКафедра системного программирования
страница1/5
Дата публикации05.02.2015
Размер467.8 Kb.
ТипКурсовая
l.120-bal.ru > Документы > Курсовая
  1   2   3   4   5
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В.ЛОМОНОСОВА

ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ и КИБЕРНЕТИКИ

КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ

Курсовая работа

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования.

Исполнитель:

Варламов Максим Игоревич

группа 427

Научный руководитель:

Майоров Владимир Дмитриевич

Москва, 2013

Содержание


2 Обзор существующих решений 8

3 Исследование и построение решения задачи 19

4 Практическая часть 33

Заключение 43

Литература 44



Аннотация


Данная курсовая работа исследует основанные на машинном обучении подходы к построению риторических деревьев текста в рамках Теории Риторической Структуры (Rhetorical Structure Theory). В работе описывается реализация такого подхода в контексте модификации существующей системы автоматического реферирования, использующей риторическую структуру текста для построения его реферата. Алгоритм построения RST-деревьев, используемый в этой системе, является сугубо эвристическим и не использует машинное обучение. Работа оценивает эффективность реализованного подхода по сравнению с исходной эвристикой как на уровне точности риторического анализа текстов, так и на уровне качества рефератов, полученных на его основе.

Введение


Задачей реферирования является составление краткого изложения материала одного или нескольких информационных источников. В условиях постоянного роста количества свободно доступной информации человеку все труднее ориентироваться в ней, поэтому реферативные техники, позволяющие автоматически выделять главное и отбрасывать несущественное, приобретают особое значение. Новостные сводки, аннотации научных статей, сниппеты веб-страниц, дайджесты журналов, обзоры книг, трейлеры фильмов, репортажи спортивных событий – примеры рефератов, с которыми мы встречаемся каждый день.

Данная работа посвящена автоматическому реферированию текстовых документов. В этом аспекте задачу реферирования можно переформулировать как составление текста-реферата по одному или нескольким исходным документам, вкратце отражающему их основные положения. В зависимости от того, для каких целей составляется реферат, на какого читателя рассчитан, какую часть исходных документов должен покрывать, а также от числа текстов-первоисточников, выделяется несколько смежных подзадач автоматического реферирования текстов. Конкретно в данной работе мы рассмотрим составление рефератов наиболее общего назначения по единственному документу-источнику.

Большинство методов автоматического реферирования направлены на выделение в тексте важных фрагментов и перенос их в реферат в практически не измененном виде. Для этого обычно строится некоторая модель исходного текста. Первые и простейшие техники реферирования, такие как [1, 2], использовали частоты употребления отдельных слов и авторскую разметку текста. Другие методы ([3, 4, 5]) используют более сложные модели, например, представление текста в виде графа, где две вершины-предложения связываются дугой, если предложения содержат общие слова. Однако ни те, ни другие модели не претендуют на представление целостной структуры текста в том виде, в котором ее представляет человек. В рамках задачи автоматического реферирования построение таких моделей позволило бы не просто более точно определять наиболее важные фрагменты текста, но и составлять более связные, качественные рефераты. Стремление приблизиться к этому рубежу обосновало появление различных теорий организации структуры дискурса и их использование для моделирования текста. Было предложено несколько различных теорий ([6, 7, 8, 9]), однако наибольшей популярностью пользуется Rhetorical Structure Theory (RST, [10, 11, 12]).

RST определяет набор риторических отношений для описания связей и зависимостей между фрагментами текста. Термин “риторический” здесь близок по смыслу к термину “функциональный”: использование определенных отношений определяется целью, с которой автор пишет текст. Большинство отношений бинарные и асимметричные – определяют связь между двумя фрагментами текста, один из которых (спутник) является зависимым от другого (ядра). Многоядерные, или симметричные, риторические отношения задают связи между двумя и более равнозначными элементами. Поскольку аргументы отношений – непересекающиеся, обычно смежные фрагменты текста – сами могут иметь определенную риторическую структуру, по сути аргументом одного риторического отношения может являться другое риторическое отношение. Данный факт позволяет описывать строение текста в виде иерархической структуры – RST-дерева. Листьям такого дерева соответствуют элементарные, риторически неделимые единицы текста, в роли которых обычно выступают клаузы.

В рамках исследовательского проекта ИСП РАН была разработана система автоматического реферирования текстовых документов, использующая для выделения значимых фрагментов текста его риторическую структуру. Данная система строит RST-дерево подаваемого ей на вход текста с помощью набора эвристик, основанных на синтаксическом анализе предложений. Структура дерева используется для назначения весов его листьям-клаузам, и из наиболее весомых клауз составляется реферат.

Тестирование данной системы выявило относительно низкое качество получаемых с ее помощью рефератов. В качестве тестовых данных использовался набор текстов на английском языке с вручную сделанными аннотациями на основе материалов конференции DUC [17] 2001-го года. Для относительной оценки качества были реализованы два простейших алгоритма автоматического реферирования, выделяющие в качестве реферата соответственно первый абзац исходного текста и набор из первых предложений каждого абзаца. Сгенерированные системой и baseline-алгоритмами рефераты сравнивались с экспертными аннотациями с помощью метрик ROUGE [18]. Результаты приведены в Таблица .

Тем не менее, работы [13, 14, 15, 16] показывают, что риторическая структура документов может быть эффективно использована для получения качественных рефератов. Применимость используемого в рассматриваемой системе алгоритма взвешивания обоснована в [19]. Логично предположить, что причиной неудовлетворительных результатов системы ИСП РАН является низкая корреляция RST-представлений текстов, выделяемых системой, с их реальной риторической структурой. Улучшение механизма построения RST-деревьев может быть достигнуто за счет значительного расширения и усложнения набора используемых эвристик. Однако более интересную альтернативу предлагают работы на основе машинного обучения ([20, 26, 27, 28, 29]), показывающие, что определение риторических отношений в тексте на основе автоматически выведенных правил может быть эффективнее вручную реализованных эвристик.
Таблица . Результаты предварительного тестирования системы автоматического реферирования ИСП РАН на данных DUC-2001 в сравнении с baseline-алгоритмами








Система ИСП РАН

Реферат - первый абзац текста

Реферат состоит из первых предложений каждого абзаца

ROUGE-1

Average recall

0.38252

0.20768

0.39090

Average precision

0.43041

0.58912

0.48388

Average F-measure

0.40461

0.29748

0.42928

ROUGE-2

Average recall

0.13678

0.09795

0.17627

Average precision

0.15380

0.29344

0.21822

Average F-measure

0.14463

0.14292

0.19359

ROUGE-L

Average recall

0.33035

0.19771

0.36961

Average precision

0.37180

0.56068

0.45733

Average F-measure

0.34946

0.28317

0.40585


  1   2   3   4   5

Добавить документ в свой блог или на сайт

Похожие:

Кафедра системного программирования iconРазработка визуального конструктора мобильных приложений
Белокуров Д. Н., 4 курс, кафедра системного программирования спбГУ

Кафедра системного программирования iconВерификация. Net библиотек на безопасное использование
Кафедра системного программирования Санкт-Петербургского государственного университета

Кафедра системного программирования iconМатематико-механический факультет Кафедра системного программирования...
Метод подстройки пользовательских приоритетов при поиске по коллекциям изображений 28

Кафедра системного программирования iconМатематико-механический факультет Кафедра системного программирования...
Метод подстройки пользовательских приоритетов при поиске по коллекциям изображений 28

Кафедра системного программирования iconКафедра системного программирования Генерация объектной модели для...
Создать для существующей платформы DocsVision автогенератор классов-моделей. Требования к генератору

Кафедра системного программирования iconМатематико-механический факультет Кафедра системного программирования...
Исследование необходимости поддержки структурных изменений в источниках данных 35

Кафедра системного программирования iconМатематико-механический факультет Кафедра системного программирования...
До недавнего времени, хирург при подготовке к пластической операции мог использовать либо дорогостоящий мрт сканер, либо производить...

Кафедра системного программирования iconКафедра системного программирования разработка аппаратной части комплекса...
Разработка аппаратной части комплекса защиты коммерческого по от несанкционированного копирования

Кафедра системного программирования iconКафедра системного программирования Рандомизированный алгоритм стохастической...
Рандомизированный алгоритм стохастической аппроксимации в задаче распознавания отдельных слов речи

Кафедра системного программирования iconЛекция №4 Тема: Среда программирования
Среда программирования – средства для создания, отладки и выполнения программ на языках программирования

Вы можете разместить ссылку на наш сайт:


Литература


При копировании материала укажите ссылку ©ucheba 2000-2015
контакты
l.120-bal.ru
..На главную