Методи отримання знань в «Deductor warehouse»
Діяльність ділових людей пов'язана з необхідністю щодня приймати рішення різної складності. Прикладами можуть служити: вибір напрямку розвитку фірми, вибір варіанту автоматизації діяльності компанії, визначення варіанту розміщення філіалу, типу товару, що випускається або закуповується, вибір приміщення під офіс, типу устаткування, вибір кредитора, співвиконавця роботи, призначення на вакантну посаду одного з багатьох кандидатів і т.д.
Обґрунтованість і професійний рівень прийняття рішень визначає, врешті-решт, ефективність діяльності фірми. Необхідність обліку при ухваленні управлінських рішень великої кількості політичних, економічних, соціальних, юридичних і моральних чинників значно ускладнює задачу вибору правильного варіанту рішення. В першу чергу, це пов'язано з пошуком і збором необхідної для прийняття рішення інформації. В цьому відношенні істотну допомогу керівнику надають сучасні інформаційні системи. Проте володіння необхідною інформацією - необхідна, але недостатня умова для прийняття правильного рішення.
Аналіз інформації є невід'ємною частиною ведення бізнесу і одним з важливих чинників підвищення його конкурентоспроможності. При цьому в переважній більшості випадків усе зводиться до застосування одних і тих же базових механізмів аналізу. Вони є універсальними і застосовні до будь-якої предметної області, завдяки цьому є можливість створення уніфікованої програмної платформи, в якій реалізовані основні механізми аналізу.
Data Mining - це не один, а сукупність великого числа різних методів виявлення знань. Всі задачі, вирішувані методами Data Mining, можна умовно розбити на п'ять класів.
1. Класифікація - віднесення об'єктів (спостережень, подій) до одного з наперед відомих класів.
2. Кластеризація - це угрупування об'єктів (спостережень, подій) на основі даних (властивостей), що описують суть об'єктів.
3. Регресія, у тому числі задача прогнозування. Це встановлення залежності безперервних вихідних змінних від вхідних.
4. Асоціація - виявлення закономірностей між зв'язаними подіями. Прикладом такої закономірності служить правило, вказуюче, що з події X слідує подія У. Такі правила називаються асоціативними.
5. Послідовні шаблони - встановлення закономірностей між зв'язаними в часу подіями.
Для вирішення вищеперелічених задач використовуються різні методи і алгоритми Data Mining. З огляду на те, що Data Mining розвивався і розвивається на стику таких дисциплін, як математика, статистика, теорія інформації, машинне навчання, теорія баз даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів з цих дисциплін.
На сьогодні найбільше розповсюдження отримали самонавчальні методи і машинне навчання. Розглянемо найбільш відомі алгоритми і методи, що застосовуються для вирішення кожної задачі Data Mining в «Deductor Warehouse».
«Deductor Warehouse» призначений для ефективного вирішення проблеми тиражування знань. Deductor - це аналітична платформа, основа для створення закінчених прикладних рішень в області аналізу даних. Реалізовані в Deductor технології дозволяють на базі єдиної архітектури пройти всі етапи побудови аналітичної системи від створення сховища даних до автоматичного підбору моделей і візуалізації отриманих результатів.
Deductor складається з 3-х частин - багатовимірного сховища даних Deductor Warehouse, аналітичного додатку Deductor Studio і робочого місця користувача Deductor Viewer.
Deductor Warehouse - багатовимірне сховище даних, що акумулює всю необхідну для аналізу предметної області інформацію. Використання єдиного сховища дозволяє забезпечити несуперечність даних, їх централізоване зберігання і автоматично забезпечує всю необхідну підтримку процесу аналізу даних. Deductor Warehouse оптимізований для вирішення саме аналітичних задач, що позитивно позначається на швидкості доступу до даних.
Deductor Studio - програма, що реалізовує функції імпорту, обробки, візуалізації і експорту даних. Deductor Studio може функціонувати і без сховища даних, одержуючи інформацію з будь-яких інших джерел, але найбільш оптимальним є їх сумісне використання. В Deductor Studio включений повний набір механізмів, що дозволяє отримати інформацію з довільного джерела даних, провести весь цикл обробки (очищення, трансформацію даних, побудову моделей), відобразити отримані результати найбільш зручним чином (OLAP, діаграми, дерева) і експортувати результати. Це повністю відповідає концепції відбору знань з баз даних (KDD).