Автор неизвестен - Бионика интелекта информация язык интеллект№ 3 (77) 2011научно-технический журналоснован в октябре 1967 г - страница 72

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77 

Рис. 5. Форма представление данных взятых из web-страницы сайта футбольного клуба "Металлист"

Рис. 6. Выделенная значимая информация из web-страницы (http://www.metallist.kharkov.ua/history.html)вания источников данных. Причем в полученном результате будут отсутствовать шумы, что ускорит процесс его обработки и скажется на эффектив­ности применения сформированной базы знаний в смежных системах.

Выводы

Полученная интеллектуальная модель системы, отвечающей за извлечения значимой информации из web-страниц, обладает рядом следующих преи­муществ:

1. Извлекаемая информация проверяется на наличие шумов и повторяющихся данных, кото­рые не записыгваются в базу знаний системы.

2. В процессе работы системы формируется бе­лый список ссылок, которые должны быть прора­ботаны в первую очередь, и черный список, ссыл­ки из которого не анализируются, а полученные данные из них автоматически считаются шумом.

3. Хранение и обновления данных из проана­лизированных динамических web-документов осу­ществляется в формате единой базы знаний, через которую также выполняется поиск информации, релевантной сформированному запросу.

4. Для учета лексической взаимосвязи данных используется терминологический словарь онтоло-гий.

5. Значимая информация в базе знаний разде­ляется за формой представления (картинки, текст, видео).

Подводя окончательную черту в описании моде­ли системы, отвечающей за извлечения значимой информации из web-страницы, нужно отметить, что сформированная база знаний может исполь­зоваться при создании специализированных поис­ковых систем [8], а именно — в процессе анализа заданного web-документа, применяя и используя описанные выше особенности.

В последующих разработках планируется реа­лизовать механизм проверки ссылок, встречаемых в обширных текстовых описаниях, а также приме­нить описанную выше модель в рамках создание единой поисковой системы.

Список литературы: 1. Chia-Hui, Ch. A survey of Web In­formation Extraction [Text] / Ch. Chia-Hui, K. Mohammed, R.G. Moheb, F. S. Khaled. // IEEE Transactions on Knowl­edge and Data Engineering — 2006. №18/10. — С. 1411-1428. 2. Информация [Электронный ресурс] / Википедияинтернет энциклопедия. Режим доступа: URL: http:// ru.wikipedia.org/ — 18.09.2011. 3. Беленький, А. Текстомай­нинг. Извлечение информации из неструктурированных текстов [Электронный ресурс] / А. Беленький // Журн. "КомпьютерПресс". — 2008. №10. Режим доступа: URL: http://www.compress.ru/article.aspx? id=19605&iid=905 — 18.09.2011. 4. Агеев, М. С. Извлечение значимой ин­формации из web-страниц для задач информационного поиска [Текст] / М. С. Агеев, И. В. Вершинников, Б. В. Добров // Интернет-математика 2005. Автоматическая обработка веб-данных. — М.:"Яndex", 2005. — С. 283-301.

5. Браславский, П. Автоматическое реферирование веб-документов с учетом запроса [Текст] / П. Браславский, И. Колычев // Интернет-математика-2005. Автоматическая обработка веб-данных. М. : '^ndex", 2005. - С. 485-501.

6. Popov, B. KIM Semantic Annotation Platform [Text] / B. Popov, A. Kiryakov, D. Manov, D. Ognyanoff, M. Goranov // Journal of Natural Language Engineering, №10/3-4. — С 375-392. 7. Ланде, Д.В. Поиск знаний в Internet. Профес­сиональная работа [Текст] : пер. с англ. М.: Издатель­ский дом "Вильямс", 2005. — 272 с. 8. Почанский, О.М. Модель построение адаптивных Web-страниц на основе интеллектуального анализа сети Internet [Текст] / О.М. Почанский // Журн. восточно-европейский журнал пере­довых технологий. — 2010. - № 4/7(46). — С. 66-69.

Поступила в редколлегию 19.09.2011

УДК 004.853

Витяг частково-структурованої (значущої) інформації з динамічних Web-документів / О.М. Почанський // Біо­ніка інтелекту: наук.-техн. журнал. — 2011. — № 3 (77). —

С. 143-149.

В даній роботі описана модель інтелектуальної си­стеми, що відповідає за вилучення значущої інформації з Web-сторінок. Це виконується шляхом поділу кожної сторінки аналізованого динамічного Web-документа на структурні блоки. Потім ці сторінки перевіряються на наявність шумів. А далі ті з них, які пройшли перевірку, зберігаються в базі знань. Результатом роботи системи є база знань, заповнена якісною інформацією (відсутні шуми) по заданій тематиці, яка може бути використана при створенні ефективних пошукових систем.

Іл. 6. Бібліогр.: 7 найм.

UDC 004.853

Removing partially-structured (significant) information from dynamic Web-documents / OM Pochansky // Bionics of Intelligense: Sci. Mag. — 2011. — № 3 (77). — P. 143-149.

The article describes the model of the intelligent system which is responsible for extracting meaningful information from Web-pages. Its main task is to divide each page of the analyzed dynamic Web-documents into different parts. Then they tested for the presence of noise, after that they saved into a knowledge base. The result of the system is the knowledge base that filled with quality information (without any noise), according to the chosen topic, which can be used to create ef­fective search engines.

Fig. 6. структурная, прикладная и математическая лингвистика

intelligence

УДК 007.681.5:519.7

М.Ф. Бондаренко, З.Д. Коноплянко, Г.Г. Четвериков

ХНУРЕ, г. Харків, Україна, chetvergg@gmail.com

КОНЦЕПЦІЇ УНІФІКАЦІЇ ІНФОРМАЦІЙНО-ІНТЕЛЕКТУАЛЬНИХ ТЕХНОЛОГІЙ В СИСТЕМАХ МОВЛЕННЯ

Стаття присвячена аналізу проблеми створення систем штучного інтелекту, які дозволяють моделюва­ти на логічному та апаратному рівнях процеси інтелектуального управління, що описані математичними операціями над природною мовою, і які є елементами k-значної структурної організації інформаційно-інтелектуальних технологій. Показана необхідність і можливість розробки загальної теорії побудови інтелектуальних систем штучного інтелекту, яка могла б стати методологічною основою створення нових інформаційних технологій.

ЛОГІКА, ЗНАННЯ, ПРИРОДНА МОВА, ЛІНГВІСТИЧНІ ТЕХНОЛОГІЇ, k-ЗНАЧНА СТРУКТУРА, АСП-СТРУКТУРА, ШТУЧНИЙ ІНТЕЛЕКТ

Вступ

Стаття є логічним продовженням досліджень авторів в галузі систем штучного інтелекту, що були розглянуті раніше, наприклад, [1—3]. Так, в умовах роботи реальних систем із високим рівнем невизначеності інформації для побудови інтелек­туальних систем неминуче використання нових інформаційних технологій, зорієнтованих на по­токи контекстно-залежної інформації; фактично необхідна розробка природно-мовних принципів побудови інтелектуального управління — теорії ін­телектуальних систем управління (ІСУ) — для сис­тем вищих рівнів системної складності. Отже, для правомірного використання скінченного автома­та (комп'ютера) у складі інтелектуальної системи теорія повинна розглядати можливість побудови абстрактних конструкцій, що реалізують не об­числювані в звичному значенні об'єкти. Все, що дотепер винайдене, всі узагальнені функціональні перетворення можна застосувати тільки для по­дання зліченних сукупностей процесів, поданих потоками, хоча і нескінченними, але однорідними, що складаються з нескінченно малих невиразних сутностей. У разі відкритих (інтелектуальних) сис­тем ми маємо справу з незчисленною множиною потоків, кожний із яких може розкритися в більш ніж зчисленну сукупність потоків, що складаються з нескінченної різноманітності структур[4].

Мета роботи. Основним завданням цієї роботи є викладення новоствореної концепції уніфікації методів та засобів побудови просторових багато­значних структур мовних систем. Предметом до­сліджень є моделювання інтелектуальної діяль­ності людей як у зовнішньому її прояві (вирішення складних завдань, розуміння природної мови, ін­терпретація візуальної інформації та мови), так і у внутрішньому (накопичення, надання і викорис­тання знань).

Згідно з завданням роботи та враховуючи осно­вні аксіоми теорії інтелектуальних систем управ­ління інтегруємо необхідні та уже розроблені при-родномовні принципи побудови інтелектуального управління і систем штучного інтелекту. У цій ро­боті, перш за все, хотілося б показати необхідність і можливість розробки загальної теорії побудови інтелектуального управління і систем штучного інтелекту, яка могла б стати методологічною осно­вою безпосередньо для створення нових інформа­ційних технологій[1—5].

1. Принципи побудови природно мовних систем штучного інтелекту

Морфологічний аналіз. Задача морфологічного аналізу [1, 3] полягає в ідентифікації словоформ та присвоєнні кожній словоформі комплексу морфо­логічної інформації (КМІ). Такий комплекс скла­дається із морфологічно-інформаційних рядків (МІ-рядків) з наступною структурою:

— номер, <(основа чи ознаки основи), МІ >, (де номер — порядковий номер даної словоформи у фразі);

— основа (ознака основи) — код семантичної ознаки, номер синтаксичної чи семантичної моде­лі керування, що присвоєні даній основі в словни­ку основ;

— МІ — частина мови та її граматичні категорії: рід, число, відмінок, час, особа тощо.

Існує два методи реалізації [1, 3] морфологіч­ного аналізу (МА): словниковий (декларативний) (використовується для аналізу мов із нерозвину­тим відмінюванням слів (англійська, французька тощо)); алгоритмічний (процедурний) морфоло­гічний аналіз. При МА здійснюється розчлену­вання словоформ на основу та закінчення і в слов­никах зберігаються як основи, так і їх закінчення. МА здійснюється шляхом пошуку в складі слово­форми, що аналізується, деякої словникової осно­ви та певного словникового закінчення. Потім виконують порівняння інформації про основу та закінчення і отримують комплекс морфологічної інформації для всієї словоформи.

Під час МА змінюваної словоформи її кінцеву частину за черзі порівнюють із закінченнями слов­ника. Після порівняння ту частину словоформи,

БИОНИКА ИНТЕЛЛЕКТА. 2011. 3 (77). С. 150-156

ХНУРЭ

що співпала, відокремлюють і отримують припус­тиму основу (ПОС), припустиме закінчення (ПЗК) та припустиму морфологічну інформацію (ПМІ).

Дані про ПЗК (ПМІ) зчитують із словника за­кінчень (морфологічної інформації). Потім пере­ходять до пошуку інших ПЗК, ПОС та ПМІ.

На другому кроці аналізу словоформи викону­ється ідентифікація її можливих основ шляхом пе­ревірки збіжності отриманих припустимих основ із вмістом машинного словника основ.

На третьому кроці МА словоформи порівню­ється інформація з тими припустимими основами та ПЗК, що отримали підтвердження за допомогою словника основ.

Ефективність МА суттєво залежить від виду по­дання машинних словників у пам'яті ЕОМ та спо­собу їх кодування. При цьому доцільно мати окре­мий допоміжний словник перенумерованих основ, що наявні у одному примірнику та розташовані в алфавітному порядку.

Для подання значень граматичних категорій будь-якої словоформи використаємо 9-ти розряд­ний 10-значний код. Порозрядно у р(1), р(2) — за­кодовано частину мови словоформи, р(3) — тип та клас прийменника чи розрядів за значенням (імен­ника, повного прикметника); р(4.і) — дієслово 1—3 особи відповідно; р(5) — код значення числа (одни­на, множина); р(6) — код відмінка (називний, родо­вий, давальний ...); р(7) — код категорії пасивності-активності; р(8) — код часу (теперішній, минулий, майбутній); р(9) — код категорії виду (доконаний, недоконаний) закінчення [1].

Для формування одного МІ-рядка до всієї сло­воформи порівнюють код основи та код закінчен­ня на відповідність їх перших п'яти розрядів, якщо співпадання немає, то дані несумісні. Для порів­няння вибирають черговий код закінчення. Якщо відповідність встановлена, то решту розрядів ре­зультуючого коду формують за правилами 10-зна-чної диз'юнкції значень відповідних розрядів кодів основи та закінчення. При цьому попередньо пе­ревіряють умову співпадання операндів чи рівність одного з них нулеві.

Таким чином, описаний алгоритм дозволяє ін­терпретувати різноманіття граматичного оброблен­ня українських флексій (аналіз, синтез, нормалі­зація, корегування помилок тощо) за допомогою розв'язків канонічних рівнянь виду Хф (X, Y) = 1.

Синтаксичний та семантичний аналіз. Тепер ми переходимо до розгляду необхідних відомос­тей про контекстно-залежні (КЗ) мови, тобто про реалізацію інтелектуального управління, коли нас цікавить можливість мінімізації яких би то не було втрат при використанні скінченого автомата як основи КЗ-мови.

КЗ-мова (природна мова людини) в галузі на­укової термінології володіє великою невизначе­ністю, що пояснюється частково поліморфізмом і контекстно-залежним поданням наукової інфор­мації, а іноді (і для інформатики і для інтелектуаль­ного управління це особливо важливо) — недбаліс­тю використання термінів.

Семантика визначає відношення між знаками і їх концептами, тобто задає зміст чи значення кон­кретних знаків[7].

Слова в мові не йдуть у довільному порядку і за­кони їх упорядкування є предметом синтаксису. Синтаксис описує структуру можливих фраз. Опис синтаксичних структур використовує наступні гра­матики (формалізми) [8—14]:

— дерева синтаксичного підпорядкування;

— системи складових;

— розширені мережі переходів.

Таким чином, синтаксичний аналіз використо­вує заготовлені за допомогою граматики шаблони вхідних фраз із метою виявлення (встановлення) відповідності між послідовністю, що аналізується, та значущими синтаксичними структурами. Осно­вним формальним засобом математичного опису природної мови є алгебра скінченних предикатів (АСП), оскільки мова є скінченою, дискретною та k-значною. АСП у процесі її дії використовує процедури розв'язування рівнянь, а не алгорит­мів. У роботі [8] в процесі синтаксичного розбору природномовних висловлювань розроблено метод побудови синтаксичних дерев для аналізу простих речень. Для встановлення інтегральних закономір­ностей обробки природної мови проаналізуємо, що власне відбувається у процесі аналітичних до­сліджень вищих лінгвістичних механізмів дії росій­ської мови.

Семантика. Вихідним матеріалом для семан­тичного аналізу природної мови є синтаксична структура фрази чи її фрагмента, а також дані про значення словоформ. Основна задача семантично­го аналізу — це зняття неоднозначності, морфоло­гічної та лексичної багатозначності словоформ та синтаксичних структур речень.

Уроботі [8] об'єктом математичного моделюван­ня є словосполучення, що мають інструментальне значення. Для аналізу семантики повідомлення на природній мові необхідно визначити значення одиниць повідомлення. Значення слів класифікують згідно з набором апріорних ознак: дія — інструмент дії або, іншими словами, дієслово (конкретної дії чи акційне) — іменник у певному відмінку (назив­ний, родовий, давальний тощо).

Метод, що покладений в основу — метод семан­тичного аналізу. Для аналізу семантики повідо­млення на природній мові необхідно визначити значення одиниць повідомлення. Значення слів класифікують згідно з набором апріорних ознак: дія — інструмент дії або, іншими словами, дієсло­во (конкретної дії чи акційне) — іменник у певно­му відмінку (називний, родовий, давальний тощо). Для дослідження семантики словосполучень та­кого виду використовують семантичні мережі та зв'язаний з ними математичний апарат, у даному випадку для кожного словосполучення у вигляді двох графів. У якості формального апарату подан­ня семантики використовують АСП [9].

Якщо побудова результуючого графа і відповід­ного йому предиката АСП можлива, то це означає, що розглянута комбінація слів утворює осмислене словосполучення, а також можливо встановити чи володіє об'єкт деякою властивістю; визначити якими властивостями повинен володіти інстру­мент для завершення дії та відновити іменник чи дієслово за набором ознак тощо.

Наступною фазою досліджень стала робота [10] про змістовну інтерпретацію алгебри ідей. Тут об'єктом математичного моделювання стали: смислова однозначність; ситуаційно-предикатна; ситуаційно-множинна; ситуаційно-кодова ідея.

У роботі [11] об'єктом математичного моделю­вання обрана семантика похідних слів із модифіка­ційними значеннями.

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77 


Похожие статьи

Автор неизвестен - 13 самых важных уроков библии

Автор неизвестен - Беседы на книгу бытие

Автор неизвестен - Беседы на шестоднев

Автор неизвестен - Богословие

Автор неизвестен - Божественность христа