Автор неизвестен - Бионика интелекта информация язык интеллект№ 3 (77) 2011научно-технический журналоснован в октябре 1967 г - страница 71

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77 

1. Причины возникновения данной проблемной области

Попробуем разобраться в причинах возник­новения указанной проблемы. Итак, для нача­ла остановимся на определении общего понятия термина информация. Данный термин означает сведения, передаваемые источником получателю (приемнику). Он всегда связан с материальным носителем, с материальными процессами и имеет некоторое представление. Информация, представ­ленная в какой-либо форме, называется сообще­нием. Cообщения представляются в виде сигналов и данных. Сигналы используются для передачи информации в пространстве между источником и получателем, а данные для хранения (т. е. для передачи во времени) [2].

В нашем случае значимая информация будет рассматриваться в виде произвольного набора дан­ных, сгруппированных в рамках заданной общей предметной области. По способу упорядочивания данных в различных типах документов их мож­но разделить на три вида: неструктурированные, частично-структурированные и структурирован­ные [3].

Как правило, электронные документы составле­ны в произвольной форме на естественном языке и содержат неструктурированные данные. Приме­ром такого документа может быть статья с произ­вольной тематикой, опубликованная в журнале или газете. Частично-структурированные данные содержат в основном электронные Web-документы различных расширений (php, aspx, jsp, htm и т.д.), оформленные в текстовом формате HTML, где они описываются с помощью специальных тэгов. И наконец, структурированные данные содержат XML-документы и базы данных [1]. Их относят к данному типу благодаря наличию специфических инструментов. В случае XML это DTD (преам­була документа, где определяются его компоненты и структура) и XML schema (язык описания струк­туры XML документа) [1]. В случае базы данных это — функциональная особенность программной оболочки, в которой она была создана, и специа-лизированнъгй язык запросов SQL, с помощью которого можно обратиться к любому существую­щему элементу базы данных.

Следовательно, при исследовании вопроса из­влечения значимой информации необходимо учи­тывать не только соответствие извлекаемых данных одной предметной области, но и тип источника, в котором они находятся.

При этом к основным критериям значимости любой информации можно отнести: актуальность, достоверность, полноту и «чистоту» находящихся в ней данных. Первые три критерия можно отне­сти к субъективным понятиям, которые могут быть выявлены экспериментальным путем. В свою оче­редь, последний критерий можно отнести к объ­ективным характеристикам, так как он отвечает за содержательную часть [4] и отражает качество по­лучаемой информации — сигнализирует о зашум­ленности (отсутствуют данные, которые не несут смысловой нагрузки в рамках заданной тематики). Следовательно, информация, содержащая данные, не удовлетворяющая поставленному критерию — незначима.

Также стоит учитывать, что Internet делает по­тенциально доступными огромные объемы ин­формации и, тем самым, ставит новые проблемы эффективной работы с такими объектами. В си­туации «информационной перегрузки» особенно актуальными становятся автоматические методы работы с большими объемами информации [5].

Исходя из этого, можно предположить, что лю­бая специализированная система, целью которой является извлечение значимой информации из определенного источника, должна заранее опреде­лить, с каким типом документа ей предстоит работать. А для этого си­стеме необходимо скорректировать свой алгоритм работы автоматиче­ски под определенную структуру данных. При этом она должна раз­бить процесс обработки и извлече­ния знаний из источников инфор­мации на несколько этапов (рис. 1).

Как видно из рис. 1, специали­зированной системе необходимо выполнить ряд дополнительных действий, прежде чем перейти не­посредственно к извлечению зна­чимой информации из документа. Причем данные действия должны быть выполнены в четко опреде­ленной последовательности, в про­тивном случае это может привести к сбою всей системы. Это оказывает негативное влияние на производи­тельность почти любой системы с указанным выше принципом рабо­ты. В конечном счете, автоматиче­ское определение типа документа увеличивает время поиска значимой информации для каждого иссле­дуемого документа. Но если зара­нее определить его тип и выполнять анализ нескольких источников ин­формации параллельно, то можно повысить производительность всей системы и тем самым уменьшить временные затраты на поиск необ­ходимого документа (рис. 2)

Как видно из рис. 2, специали­зированная система за одну и ту же единицу времени может обработать в 3 раза больше документов при условии схожести алгоритмов и рав­ном объеме извлекаемых данных. Хотя при этом область применения данной системы сужается из-за ра­боты только с определенным типом документов.

В настоящие время существуют системы, способные работать как с документами любых типов, так и с одним, заранее определенным. Далее рассмотри некоторые из них.

2. Обзор существующих решений

Примером системы, которая способна работать с документами любых типов, является KIM Se­mantic annotation platform [6]. Данная система от­вечает за извлечение и обработку данных, получае­мых из различных информационных источников.

Рис. 1. Этапы работы специализированной системы по извлечению информации из заданного документа любого типа

Рис. 2. Параллельная работа специализированной системы по извлечению информации из заданных документов заранее определенного типа

Она обеспечивает выполнение поставленных задач путем автоматического индексирования докумен­тов любого типа и построения их семантических аннотаций на основании проведенного анализа полученных данных. Для этого формируется база знаний, основанная на онтологии высшего поряд­ка, в которой хранятся семантические аннотации в виде ключевых объектов (опорных слов) про­индексированных документов. Таким образом, в любом документе выделяются данные, которые соответствуют определенным классам, описанным в созданной онтологии. Каждый из классов, в свою очередь, делится на подклассы. Названия классов и подклассов соответствуют определенному обще­му термину, к которому можно отнести каждый из ключевых объектов (ключевой объект может соот­ветствовать только одному классу или подклассу).

Все проаннотированные документы могут быть разделены на группы (на основании проанализи­рованной meta-информации), каждая из которых соответствует определенной предметной области. Причем все данные в рамках одной группы связа­ны между собой. Это обеспечивает доступ ко всем ключевым объектам соответствующей тематики из документа любого типа, который был предвари­тельно обработан данной системой.

К достоинствам KIM Semantic annotation plat­form можно отнести:

1. Работу с любыми типами документов.

2. Взаимосвязь всех ключевых объектов различ­ных документов, данные которых хранятся в базе знаний системы.

3. Возможность выполнения поиска докумен­тов по ключевым объектам.

К недостаткам KIM Semantic annotation plat­form можно отнести:

1. Необходимость выполнения дополнительной обработки документа при создании семантических аннотаций.

2. Отсутствие проверки на зашумленность и по­вторяемость информации в исследуемых докумен­тах.

3. Неиспользование ключевых объектов для определения тематики документа. Ключевые объ­екты несут чисто информативный характер.

4. Отсутствие автоматизации составления логи­ческих правил, по которым ключевые объекты от­носят к какому-либо классу или подклассу, а также онтологии высшего порядка

5. Отсутствие возможности вносить в структуру онтологии высшего порядка изменения в процессе роботы системы.

Примером системы, которая способна рабо­тать с документами определенного типа, являет­ся программа, основанная на методе извлечения значимой информации из web-страниц путем их разделения на содержательную и навигационную часть. Данная система использует алгоритм, осно­ванный на выделении повторяющихся фрагментов страниц одного сайта. Для этого на вход алгорит­му подается директория с файлами, которая соот­ветствует страницам одного сайта. После этого он анализирует данные файлы и выделяет в них по­вторяющиеся фрагменты, которые считаются на­вигационной частью. В зависимости от настроек, алгоритм либо удаляет навигационную часть из файла, либо выделяет навигационную часть спе­циальными тегами. В свою очередь неповторяемые фрагменты относят к содержательной части, кото­рая используется при информационном поиске документа, соответствующего формализованному запросу пользователя [4].

К достоинствам данной системы можно отнести:

1. Выптолнение функций поиска данных, соответ­ствующих запросу, сформированному пользовате­лем, только в содержательной части web-документа.

2. Эффективную обработку информации на сайтах форумов, блогов, web-конференций, кото­рые имеют стандартную структуру.

3. Возможность периодического мониторинга фиксированного списка сайтов.

К недостаткам данной системы можно отнести:

1. Необходимость выполнения дополнитель­ной обработки web-документа при его разделении на содержательную и навигационную часть.

2. Низкая эффективность поиска web-документа, в случае если в его навигационной ча­сти содержится информация, релевантная сфор­мированному запросу.

3. Отсутствие проверки на зашумленность со­держательной части web-документа

4. Наличие случаев, в которых навигационную часть невозможно выявить или она выявлена не­правильно на основе анализа совпадающих частей страниц.

5. Отсутствие функции лексического анализа со­держательной части web-документа при поиске ре­левантных данных по сформированному запросу.

6. Работу только с одним типом документов.

Исходя из этого, можно сделать вывод, что не­зависимо от количества поддерживаемых типов документов различными системами, они обладают рядом характерных недостатков. Главным образом они заключается в отсутствии возможности выяв­ления и исключения шумов при извлечении дан­ных из информационных источников.

Решением указанной проблемы посвящена данная статья.

3. Общие проблемы рассмотренных систем

Основываясь на приведенных выше исследова­ниях, было выявлено, что эффективного решения проблемы деления данных из любого информа­ционного источника на значимую и незначимуючасть не предложено. В основном это вызвано на­личием ряда следующих причин:

1. Большинство систем опираются на ключевые слова, которые могут иметь несколько значений и относится к разным тематикам, и поэтому возмож­но появление документов, не связанных со сфор­мированным запросом.

2. Часто при анализе страницы web-документа исследуется только rneta-данные, при этом другая информация не рассматривается, как следствие, возникают шумы в полученных данных.

3. В системах, направленных на извлечение ин­формации из документов, отсутствуют критерии, характеризующие качество получаемой информа­ции.

4. В процессе работы систем, направленных на извлечения информации, не формируются список «надежных» источников, данные из которых со­держат наименьшее количество шумов. Это может отрицательно сказаться на эффективности работы всей системы в целом.

5. Большинство систем не выделяет значимую информацию из проанализированного источника и не хранит её в формате базы знаний. Тем самым данные системы сталкиваются с необходимостью повторной обработки данных во время появления новых поисковых запросов.

4. Постановка задачи

Исходя из изложенных выше причин, необходи­мо создать интеллектуальную систему, способную извлекать значимую информацию из документов с минимальным количеством шумов. Также она должна быть лишена основных недостатков и про­блем, выявленных при рассмотрении схожих си­стем.

Для повышения эффективности будущей системы было принято решения обрабаты­вать динамические web-документы только с частично-структурированными данными (html-документами) в связи с тем, что она рассчитана на работу преимущественно с Internet ресурсами, где данный тип документов наиболее распространен.

5. Метод решения

На основании сформированной выше задачи предлагается рассмотреть модель работы системы извлечения значимой информации, которая спо­собна повысить критерии качества получаемых данных. Данная модель отталкивается от предпо­ложения, что любой современный информацион­ный web-документ можно разбить на различные структурные блоки. Каждый из этих блоков в свою очередь содержит определенные данные, посвя­щенные заданной тематики, и выделен произволь­ным набором повторяемых html-тегов. В качестве примера одного из таких блоков возьмем часть html-кода, взятого из сайта футбольного клуб "Ме­таллист" (http://www.metallist.kharkov.ua). Итак, данный блок имеет следующую структуру:

<div class="block_three_top"><h2>METMMECT OnPOC</h2></div>

<div class="poll-info"><p><a href="/ poll/57/">Как, по Вашему мнению, завершится матч Металлист - Tаврия?</a></p></div>

<div class="block_three_bot"><a href="/ poll/57/">голосоваmь</a></div>

Его границы были выделены по следующему принципу: ключевой html-тег, в данном случае это <div class="block_three_top">, не может быть частью другого тега. К примеру, тег <h2> являет­ся частью рассмотренного выше ключевого тега, следовательно, он не может быть началом другого структурного блока. Закрытие ключевого тега (</ div>) символизирует окончание описания данного структурного блока. Исключение составляют теги, отвечающие за формирование и описание общей структуры любой web-страницы.

Если учесть, что структуру современного ди­намического web-документа можно представить в форме ориентированного графа [7], корнями кото­рого являются гипертекстовые ссылки, представ­ленные в виде меню-навигации, то блок, который содержит ссылки на внешний источник или дру­гую страницу из другого домена (за исключением ссылок встречаемых в обширных текстовых опи­саниях), можно принять за шум. А значит, они не должны учитываться при обработке web-страницы данной системой. Остальные информационные блоки анализируются и записываются в базу зна­ний в соответствии с критериями, которые были предварительно заданы пользователем.

Общий принцип модели системы, отвечаю­щей за извлечения значимой информации из web-страницы, рассмотрен ниже (рис. 3).

Далее остановимся подробнее на критериях, которые предварительно задаются пользователем. В общем случае они могут выглядеть в форме про­стых пожеланий в формате предоставляемых дан­ных. К примеру, пользователи могут сформировать списки любимых источников и обмениваться ими между собой в форме rdf-файлов (рис. 4).

Также в процессе работы данной системы осу­ществляется подсчет качества информации, кото­рая содержится на текущей web-странице, по фор­муле:

где Iq процент значимой информации на текущей web-странице; Ial —процент всей информации на текущей web-странице (обычно равен 100%); Ib процент шумов на текущей web-странице.

Основываясь на данной формуле, можно вы­строить внутренний рейтинг приоритета обработ-

Рис. 3. Общая структурная схема модели системы, отвечающей за извлечение значимой информации из динамической web-страницы

ки информационных источников с наименьшим количеством шумов при условии схожести их те­матик.

5. Анализ полученных результатов

В рамках рассмотренной модели системы, от­вечающей за извлечения значимой информации из динамического web-документа, была сформи­рована база знаний сайта футбольного клуба "Ме­таллист". Каждый класс полученной онтологии соответствует пункту навигации данного сайта. Причем его название сформировано с использо­ванием терминологический словаря онтологий по соответствующей предметной области [8].

Стоит отметить, что экземпляры каждого из этих классов хранят информацию, полученную при анализе web-страниц сайта футбольного клу­ба "Металлист" (рис. 5). Причем в этой онтологии данные могут быть представлены как текстом, так и картинками или видео. Также для каждой web-страницы формируются «белые» и «черные» спи­ски, информация из которых автоматически счи­тается значимой в первом случае или шумом, во втором.

Далее рассмотрим некоторые из основных по­лей, которые отображены на данном рисунке:

1. hasadress хранит URL страницы, из которой были взяты данные;

2. hasname хранит имя страницы, из которой были взяты данные;

3. haspictures хранит URL картинок страни­цы, из которой были взяты данные;

Рис. 4. Пример отображения списка любимых источников в редакторе онтологий Protйgй

4. hasLiteList хранит URL страниц, которым 7. hasresorse хранит значимую информа-доверяет система; цию, которая была взята из данной web-страницы

5. hasBlackList хранит URL страниц, которым (рис. 6).

не доверяет система; В заключение можно сделать вывод, что по-

6. hasquality хранит процент значимой инфор- лученная онтология позволяет сократить время мации от общего числа; поиска нужной информации за счет структуриро-

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77 


Похожие статьи

Автор неизвестен - 13 самых важных уроков библии

Автор неизвестен - Беседы на книгу бытие

Автор неизвестен - Беседы на шестоднев

Автор неизвестен - Богословие

Автор неизвестен - Божественность христа