Л В Чирун, Т В Шестакевич - Інтелектульний аналіз таблиць прийняття рішень у системах електронної комерції - страница 1

Страницы:
1  2 

Як видно з рисунків, для рівномірного закону розподілу ймовірностей звертання до сторінок значення математичного сподівання загального часу, необхідного для пошуку сторінки, є найбільшим. Математичне сподівання зменшується із зміною закону розподілу від узагальненого до закону Зіпфа. І є найменшим для "бінарного" закону розподілу ймовірностей звертання до сторінок. Порівнюючи за ефективністю обидва підходи можна зробити висновок, що ефективність другого методу є вища.

 

1. Кнут Д. Искусство программирования для ЭВМ. Т.3: Сортировка и поиск. -М.:Издательский дом " Вильямс ", 2000. - 840с. 2. Цегелик Г.Г. Организация и поиск информации данных. - Львов: Свит, 1990. - 186 с. 3. Цегелик Г.Г., Тичковський Р.О. Математичне моделювання оптимального доступу до інформації серверів зі сторони користувачів // Міжвідомчий збірник наукових праць "Відбір і обробка інформації" / Фізико-механічний інститут ім. Г.В. Карпенка.2004. Вип 21. - С.196-200. 4. Baeza-Yates R., Castilio C. Relating Web Structure and User Search Behavior. - Center for Web Research, Department of Computer Science, University of Chile, 2002. - 24p. 5. Hu W.-C., Chen Y., Smalz M., Ritter G. An Owerview of World Wide Web Search Technologies. Department of Computer Science. Auburn University, 2000, - 6p. 6. Kobayashi M., Takeda K. Information Retrieval on the Web. IBM Research, IBM Tokyo Research Laboratory. IBM Japan. 2000, - 47p.

 

 

УДК 681.518:681.327.8

 

Л.В. Чирун, Т.В. Шестакевич

Національний університет "Львівська політехніка", кафедра інформаційних систем та мереж

 

ІНТЕЛЕКТУЛЬНИЙ АНАЛІЗ ТАБЛИЦЬ ПРИЙНЯТТЯ РІШЕНЬ У СИСТЕМАХ ЕЛЕКТРОННОЇ КОМЕРЦІЇ

 

© Чирун Л.В., Шестакевич Т.В., 2008

 

Проаналізовано основні проблеми електронної комерції в сфері видавництва та запропоновано методи вирішення цих проблем.

 

In the given article main problems of electronic commerce are analyzed. New methods for solution of discussed problems are proposed.

 

Вступ. Загальна постановка проблеми

Використання глобальних мереж зв'язку привело до появи нових напрямків ведення бізнесу та принципово змінило функціонування та структуру існуючих компаній, з'явилось поняття Інтернет-економіки. Внутрішня організація компанії на базі єдиної інформаційної мережі (Інтранет), яка підвищує ефективність взаємодії співробітників та оптимізує процеси планування і керування, а також зовнішня взаємодія (Екстранет) з партнерами, постачальниками і клієнтами - є складовими частинами електронного бізнесу (е-бізнесу). Одним із найважливіших складників електронного бізнесу є електронна комерція - будь-які форми ділової угоди, що проводиться за допомогою інформаційних мереж [1, 2].

До електронної комерції у широкому розумінні належать [1, 2]:

   глобальний електронний маркетинг, зокрема просування традиційних товарів і послуг;

   віддалені   послуги,   які   можуть   проводитися   на   відстані:   послуги,   пов'язані з консультуванням, юридичною і бухгалтерською підтримкою й ін.;дистанційна робота коли у сфері нематеріального виробництва стає можливою організація "розподілених офісів", у яких спільно працюють люди, що знаходяться в різних приміщеннях, містах і навіть країнах;

   електронну комерцію у вузькому розумінні, яка передбачає торгівлю товарами, що можуть передаватися в цифровій формі і (або) оплата яких може бути в цифровій формі. До таких товарів належить інформація в текстовій, графічній або звуковій формі; електронного бізнесу.

Сучасний етап розвитку Інтернет-економіки обумовив зростання потреб в інформації, яка тепер відіграє роль виробничого фактора та стратегічного ресурсу. Необхідність оперативного поширення та отримання інформації привела до розвитку електронних засобів масової інформації.

 

 

Зв'язок висвітленої проблеми із важливими науковими та практичними завданнями.

Наукова новизна одержаних результатів

Ринок інформаційних послуг являє собою сукупність економічних, правових, організаційних і програмних відносин з продажу і купівлі інформаційних продуктів та послуг, які складаються між їхніми постачальниками і споживачами. Інформаційний продукт - це документована інформація, яка підготовлена відповідно до потреб користувачів Інтернет-послуг і призначена (або застосовується) для їх задоволення. Інформаційними послугами називають дії суб'єктів щодо забезпечення споживачів інформаційними продуктами. Одним із елементів ринку інформаційних послуг є електронні засоби масової інформації.

Інтернет-ЗМІ - це відвідувані значною аудиторією великі сайти, що поновлюються кілька разів за добу і створені для надання саме журналістської продукції, соціально значимої інформації: новин, статей тощо.

Електронне поширення інформації має такі переваги:

1.  Низька вартість створення інформації - тобто допоміжних робіт при її створенні, що дозволяє заощадити ресурси власне для виробництва самої інформації, немає потреби у спеціальному устаткуванні;

2.  Низька вартість тиражування інформації і відсутність надлишкового тиражування: документ фізично знаходиться в одному місці, "тиражується" і поширюється тільки адреса документа;

3.  Простота і низька вартість опрацювання інформації (сортування, перетворення) - оскільки інформація знаходиться в електронному вигляді, її легко опрацьовувати як постачальникам інформації, так і кінцевим користувачам;

4.  Відсутність обмежень обсягу - в Інтернеті обсяг публікацій не визначається обсягом друкованих площ, що волю мережному журналісту;

5.  Екстериторіальність - оскільки носій несуттєвий, його не потрібно поширювати, будь-який сайт доступний там, де є доступ до Інтернету.

 

Практичне значення одержаних результатів

Інтернет-газета - це засіб масової інформації [1], спрямований на широку аудиторію, загальнодоступний, з корпоративним характером виробництва і поширенням інформації, містить багато видів комунікацій. З 2005 року функціонує Інтернет-газета "Прес-Тайм" (www.presstime.com.ua), до основних рубрик якої належать загальні новини, політика та суспільство, економіка. Своєю чергою, всі новини відсортовані за обласними центрами України: Львівська, Івано-Франківська, Закарпатська, Волинська, Рівненська, Тернопільська, Чернівецька і т.д. Газета має три основні підсистеми, які між собою взаємодіють: підсистема для редагування газети з боку журналістів; підсистема перегляду новин з боку клієнта; підсистема передплати. Клієнт (майбутній читач Інтернет-газети "Прес-тайм") укладає договір з видавництвом, в якому вказує основі рубрики, які його цікавлять, за якими областями отримувати інформацію, період отримання передплати, за бажанням вибирає, чи буде автоматично надсилатися сервером раз на добу інформація на електронну пошту. Клієнт отримує логін та виставляє пароль при першомувідвідуванні Інтернет-газети. Уся інформація про вибір користувача зберігається у клієнтській базі даних. Аналіз потреб передплатників дозволить покращити якість не лише видання, але й послуг, що надає видавництво.

 

Аналіз сучасних досліджень і публікацій

Інтелектуальний аналіз даних - складова частина процесу видобування знань з баз даних, що дає змогу розкрити суть прихованих залежностей у даних, виявити взаємні впливи між властивостями об'єктів, інформація про які зберігається в базах даних, виділити закономірності, властиві певному набору даних.

 

Загальна схема інтелектуального аналізу даних. Проблема відсутніх даних

Актуальність проблеми дослідження та опрацювання даних підтверджується широким практичним та комерційним використанням систем інтелектуального аналізу. Найчастіше їх застосовують у науковій сфері та бізнесі.

У загальному випадку процес видобування знань складається з чотирьох основних кроків.

1.      Відбирання даних.

2.      Попереднє опрацювання даних.

3.      Інтелектуальний аналіз даних.

4.      Оцінювання та інтерпретація побудованих моделей та знайдених залежностей. Послідовність етапів [3] видобування знань зображено на рис. 1.


 

Неопрацьовані дані

Неопрацьовані дані - це довільна інформація про досліджувану предметну область. Об'єкти предметної області описують множинами їхніх властивостей. Найзручніше подавати інформацію про властивості об' єктів таблицями, стовпці яких позначені іменами властивостей, а елементи рядків містять значення властивостей. Рядок таблиці в термінах машинного навчання є прикладом, стовпці таблиці називають атрибутами. Множина значень атрибута називається доменом. Якщо у таблиці визначено атрибут прийняття рішення (його значення вказує на належність прикладу до певного класу), то така таблиця є таблицею прийняття рішень. Тоді всі атрибути, крім атрибутів прийняття рішень, називають умовними атрибутами. Для цього дослідження предметною областю

є клієнтська база Інтернет-газети "Прес-тайм", де атрибутами таблиці прийняття рішень є адреса клієнта, рубрики, регіони, термін передплати тощо (усього 34 атрибути). Атрибутом прийняття рішень є висновок про зміну штату журналістів (1 атрибут). Усього в таблиці є 230 прикладів.

Проблема відсутніх даних у таблицях та невідомих значень атрибутів у прикладах з' являється тоді, коли хоча б одне значення атрибуту невідоме. Під невідомим розуміємо таке значення атрибута, визначити яке вже немає можливості, оскільки неможливо умови, у яких були отримані всі інші дані у таблиці, неможливо або дуже дорого повторити. Таке значення може бути довизначене на основі певних міркувань, яким присвячені подальші дослідження.

Причини появи у таблицях невідомих значень атрибутів є такими [4, 5].

1.      Недбалість осіб, що збирають або вносять дані у таблиці, спричинена особистими рисами або відсутністю фінансової зацікавленості.

2.      Зміна множини атрибутів у процесі збирання даних.

3.      Надходження даних з різних джерел, у яких об' єкти описані різними множинами атрибутів.

4.      Фізична відсутність даних. Наприклад, особа, яка не отримала водійських прав, не має запису про серію та номер посвідчення водія.

5.      Логічна відсутність даних. Наприклад, керівник підприємства не може вказати в анкеті прізвище свого начальника.

6.      Помилки вимірювань та обмежені можливості апаратури.

7.      Значення атрибута не належить допустимій множині його значень.

8.      Необхідність дотримання анонімності.

Серед зазначених причин появи відсутніх даних в описаній клієнтській базі, що представлена таблицею прийняття рішень, можна віднести, по-перше, недбалість осіб, що заповнюють форму замовлення, по-друге, зміну множини атрибутів у процесі збирання даних, а також небажання розголошувати індивідуальні дані.

Приклади в таблицях прийняття рішень можуть мати невідомі значення як умовних атрибутів, так і атрибута прийняття рішення. Надалі розглядатимемо приклади, у яких можуть бути невідомими лише значення умовних атрибутів.

Для інтелектуального аналізу таблиць даних, атрибути в яких мають невідомі значення, планується застосувати порівняно новий підхід, який ґрунтується на понятті наближеної множини (rough set) [6]. Наближені множини - це символьна індуктивна методологія, яка поряд з нейронними мережами, розмитими множинами, генетичними алгоритмами належить до методологій м 'яких обчислень (soft computing), які застосовують в інтелектуальному аналізі даних та машинному навчанні.

 

Способи вирішення проблеми відсутніх даних

Приклади, які є описом об' єктів предметних областей та на основі яких доводиться приймати рішення, у часто містять невідомі значення атрибутів. У разі побудови систем прийняття рішень доводиться враховувати і такі дані. Це пов'язано з тим, що здійснення додаткових досліджень з метою покращення даних неможливе або вартісне.

Виділяють [7] такі основні групи методів опрацювання таблиць із невідомими значеннями атрибутів:

-   іґнорування відсутніх даних;

-   видалення прикладів із невідомими значеннями атрибутів;

-   доповнення відсутніх даних;

-   безпосереднє опрацювання таблиць з відсутніми даними.

На рис. 2 перелічено методи опрацювання таблиць із невідомими значеннями атрибутів.

МЕТОДИ ОПРАЦЮВАННЯ НЕВІДОМИХ ЗНАЧЕНЬ АТРИБУТІВ

 

Ігнорування

 

\--- \ Видалення

 

Доповнення

 

Комбінаторне доповнення

 

Глобальне доповнення

 

Локальне доповнення

 

Локальне доповнення з огляду на атрибут

1--- \ Локальне доповнення з огляду на рішення

 

Метод к найближчих сусідів

 

1--- \ Перепрофілювання атрибутів

Перепрофілювання атрибутів і доповнення із застосування системи прийняття рішень

І-- 1 Перепрофілювання атрибутів і доповнення

із застосування реґресії_______________

1-- \ Безпосереднє прийняття рішень

 

Рис. 1. Класифікація методів опрацювання відсутніх даних

 

Ігнорування відсутніх даних полягає у доповненні переліку значень атрибута величиною, яка символізує невідоме значення цього атрибута.

Видалення прикладів або атрибутів. Використовують два підходи до видалення даних. Перший з них здійснює спеціаліст, який, з огляду на свої знання та досвід, приймає рішення про видалення прикладу чи атрибута (часткове видалення). Також обсяги та пропорції видалення прикладів із невідомими значеннями атрибутів залежать від конкретних даних та задач. Такий підхід не є алгоритмічним, оскільки прийняття рішення про видалення залежить від досвіду людини-експерта.

Другий підхід до видалення даних можна назвати автоматичним: допускається видалення кожного атрибута і кожного прикладу, якщо вони містять хоча б одне невідоме значення (повне видалення). У результаті такого видалення у таблиці будуть залишені лише заповнені рядки.

І повне, і часткове вилучення прикладів чи атрибутів із невідомими значеннями не виключають видалення і таких, що мають суттєві властивості для досліджуваної таблиці прийняття рішень. Вилучення прикладів чи атрибутів, що містять навіть одне невідоме значення, може істотно зменшити розмірність таблиці.

Доповнення таблиць даних [7]. Невідомі значення атрибута заповнюють за певним критерієм, який формують на основі відомих значень атрибута. У разі доповнення таблиці необхідно розрізняти дані, що об' єктивно існують, та такі, що не існують. До перших належать дані, які можна отримати, але вони з певних причин не були внесені до таблиці (наприклад, інформація про вік працівника - її можна доповнити на основі інших відомих даних). Доповнення таблиць із відсутніми даними не змінює розмірності таблиці, але вносить інформаційний шум у дані.

Універсальні методи доповнення таблиць з відсутніми даними дають змогу застосовувати відомі методи опрацювання заповнених таблиць прийняття рішень.

Існують такі основні методи доповнення таблиць з відсутніми даними:

-                комбінаторне доповнення;

-                глобальне доповнення;

-                локальне доповнення з огляду на атрибут та на рішення;

-                доповнення методом k найближчих сусідів;

-                перепрофілювання змінних і використання системи прийняття рішень. Комбінаторне доповнення. Метод комбінаторного доповнення дозволяє доповнити таблицю

заміною прикладу із невідомим значенням атрибуту кількома прикладами із усіма відомими значеннями атрибутів.

Кількість додаткових прикладів, що утвориться застосуванням методу комбінаторного доповнення, обчислюють за формулою

n  ( m ^\

F = Z П%-1

де n - кількість прикладів у таблиці, m - кількість атрибутів таблиці, z{- дорівнює 1, якщо значення

і-го прикладу на j-му атрибуті відоме, і потужності домену j-го атрибута, якщо невідоме.

Обмеженням на застосування методу комбінаторного доповнення є велика кількість невідомих значень атрибутів і (або) велика потужність доменів атрибутів, значення яких невідомі.

Глобальне доповнення. Таке доповнення використовують для заповнення відсутніх даних на основі відомих значень атрибутів. Для цього на основі усіх відомих значень атрибута обчислюють певний параметр s . Значенням параметра s для чисельних атрибутів може бути середнє або медіана, для символьних атрибутів - значення, що зустрічається найчастіше. Обчисленим параметром заміняють відсутні значення.

Локальне доповнення з огляду на рішення. Метод передбачає поділ множини прикладів таблиці на підмножини з однаковим значенням атрибута прийняття рішення. Для кожної підмножини обчислюється власний параметр s та ним заповнюються невідомі значення.

Локальне доповнення з огляду на атрибут. Метод розглядає умовні атрибути із відсутніми значеннями як атрибути прийняття рішення. Пошук пов' язаних між собою атрибутів ускладнений необхідністю оцінювати зв' язки між атрибутами не лише однакового, але й різного типу. Для оцінювання міри взаємозв' язку пари числових атрибутів можна використати коефіцієнт кореляції, а двох символьних атрибутів - ентропію. Проте, немає ефективного методу порівняння між собою числових та символьних атрибутів.

Доповнення за допомогою методу k найближчих сусідів. Метод передбачає, що приклади з близькими значеннями одних атрибутів найімовірніше мають близькі значення й на інших атрибутах. Метод k найближчих сусідів враховує подібність між прикладами, тоді як попередні методи доповнення невідомих значень спирались на існування залежностей між атрибутами.

У разі перепрофілювання атрибутів і доповнення із застосуванням системи прийняття рішень чи регресії умовні атрибути з невідомими значеннями розглядають як атрибут прийняття рішень. Існування зв' язків між невідомими та відомими значеннями можна використати для доповнення невідомих значень атрибута з допомогою реґресійного аналізу [11].

Доповнення невідомих значень є універсальним способом розв'язування задачі про неповний опис об'єктів. Водночас доповнення невідомих даних має небезпеку внесення істотних змін у дані, що ускладнює пошук зв'язків між умовними атрибутами та розв'язком.

Безпосереднє прийняття рішень на основі даних з відсутніми значеннями. Одним із способів безпосереднього опрацювання даних з невідомими значеннями є методи поділу, за допомогою яких таблицю прийняття рішень з відсутніми даними поділяють так, щоб утворити заповнені таблиці. Такі таблиці опрацьовують методами для заповнених таблиць.

Страницы:
1  2 


Похожие статьи

Л В Чирун, Т В Шестакевич - Інтелектульний аналіз таблиць прийняття рішень у системах електронної комерції