Методи та засоби збору, перетворення і введення даних
Підсистема збору, перетворення і введення даних грає головну роль в автоматизованій інформаційній системі і є основною з'єднувальною ланкою між навколишнім се¬редовищем і численними користувачами. Збір даних мо¬же здійснюватися механічним способом (вимірювальним пристроєм, що перетворює фізичні величини в елект¬ричні, щупом, самописним приладом, що реєструє ім¬пульсні сигнали, і т. д.) і людиною (шляхом спостере¬ження певного явища, сприйняття акустичного і світлового сигналу, зняття показань лічильника і т. д.). Механічна реєстрація даних полягає в тому, що джерело інформації, тобто «подія» або «явище», виявляється у ви¬гляді зміни деякого фізичного стану, і цей новий стан реєструється механічним способом. Спостереження, здійснюване людиною, із наступним відновленням ре¬зультатів по пам'яті, називають «записом». Фактично мова йде про те, що людина фіксує інформацію, яка у певний момент закарбувалася в її пам'яті, і клітини її мозку з фіксованою інформацією по суті справи відіграють роль проміжного передавального документа.
При механізованому обліку час спрацьовування датчи¬ка і ступінь достовірності одержуваної інформації постійні і заздалегідь відомі. При спостереженні, яке здійснюється людиною, вноситься невизначеність, і час спрацьовуван¬ня не може бути відомим з достатньою точністю. Зате в другому випадку відкриваються набагато більш широкі можливості, тому що людина, володіючи здатністю до інтерпретації (деякою мірою ця здатність негативно впли¬ває на точність інформації), може брати до уваги такі фак¬ти, що не фіксуються механічним способом. Акт збору даних фактично складається з двох доповнюючих од¬на одну операцій: реєстрації і передачі. Однак очевидно, що основною операцією є реєстрація даних, і в більшості випадків її введення в автоматизовану інформаційну си¬стему невіддільне від реєстрації.
Підсумком процесу збору даних є забезпечення їхньої готовності до подальшого руху в системі й подання їх у найрізноманітніших формах (кодовані сигнали, видрукований текст і т. д.). Формою подання даних є сигнал, який виробляється датчиком при кожній зміні стану процесу стосовно деякого вихідного стану. Найбільш широко на практиці використовуються датчики з одним або двома стійкими станами. У основу їх конструкцій можуть бути покладені різні принципи, в залежності від яких розрізняють наступні моделі (типи) датчиків: механічні, електромеханічні, оптичні, акустичні, випромінюючі та інші.
Кінцевою метою аналізу даних є одержання інформа¬ції, на основі якої можуть прийматися правильні рішення.
Основні етапи технології аналізу даних показані на рис.1.3.
Типовою формою представлення даних є таблиця «об'єкт-ознака», у яку заносяться значення ознак (влас¬тивостей), що характеризують кожний досліджуваний об'єкт. Прикладами ознак можуть бути «вага», «довжи¬на», «колір», «професія», «ціна», «люди», «вироби», «родовище» та ін. Таблицю такого виду прийнято називати таблицею або матрицею експериментальних даних (ТЕД). Цю назву варто трактувати більш широко, говорячи не про експериментальні дані, а про дані наукового дос¬лідження.
Склад даних — це, насамперед, склад ознак, що характеризують об'єкти. Кожний реальний об'єкт має нескінченне число різноманітних властивостей, що відображають його різні сторони. Природно, що в кож¬ному конкретному дослідженні істотними є не всі влас¬тивості, а лише обмежений їх набір, що визначає най¬більш важливі ознаки. Виділити їх — завдання фахівця предметної області; ніхто інший, включаючи фахівця з аналізу даних, цього зробити не може. Необхідно також вирішити, як подавати в таблиці значення кількісних оз¬нак та ін.
Наступним етапом аналізу даних є етап, на якому по¬ставлене завдання вирішується на якісному рівні. Це на¬самперед означає процедуру подання даних у візуальній формі, щоб побачити їхню придатність для перевірки візуальних гіпотез або обраних моделей. Саме побачити, оскільки зоровий аналізатор людини — канал, по якому мозок одержує найбільший об'єм зовнішньої інформації. Найголовніше те, що ця інформація може бути неформалізованою і в той же час майже однаково сприймати¬ся людьми, що мають різний рівень підготовки і працю¬ють у різних областях. На етапі якісного аналізу даних основні гіпотези стосуються структури даних — саме її необхідно досліджувати. Тому завдання полягає в побу¬дові проекцій даних на різні пари ознак (на які саме — варто визначити, виходячи з висунутої гіпотези); дослід¬женні окремих ознак; пошуку дублюючих одна одну або надлишкових ознак і т. д.
Гіпотез, що пояснюють явище, може бути багато, от¬же, повинен бути апарат, що допомагає здійснювати їхню перевірку. У аналізі даних таким апаратом є обчис¬лювальний експеримент із даними, тобто застосування до даних певного методу машинної обробки. Обчислю¬вальний експеримент є однією з загальних методологій застосування обчислювальної техніки в різноманітних областях — методологією перевірки гіпотез, висунутих дослідниками, за допомогою машинних методів або мо¬делей .Якщо обчислювальний експеримент можна назвати стратегією аналізу даних, то тактикою його правомірно вважати зіставлення результатів застосування різнома¬нітних алгоритмів обробки. На одиничний результат ро¬боти якоїсь програми рідко можна покластись. Занадто багато чинників може вплинути на нього (причому часто незалежних від самих даних або математичних мето¬дів).