Проблеми використання роботів в Інтернеті
Зрозуміло, що роботи дуже корисні, але вони накладають високі вимоги на трафік і спричинюють багато проблем. Тому автори роботів мусять обирати золоту середину між користю та шкодою, коли створюють та випускають робота. І тут є етична проблема: "Чи шкоду від роботів можна виправдати їх корисністю". Люди мають різні думки щодо цього.
Деякі з проблем стали очевидними лише тоді, коли роботи збільшили вдвічі завантаження серверів. Мартин Костер виробив набір правил для авторів роботів, дотримуючись яких, можна мінімізувати шкоду від роботів:
•подумайте, чи насправді вам потрібен новий робот;
•зробіть так, щоб адміністратори серверів могли легко ідентифікувати робота та при необхідності зв‘язатися з автором;
•ретельно протестуйте робота локально;
•керуйте використанням ресурсів, не допускайте кількох послідовних скачувань з одного серверу та не допускайте непотрібних скачувань;
•дотримуйтесь стандарту "for Robot Exclusion";
•регулярно переглядайте log файли робота;
•діліться результатами своєї роботи з іншими.
Девід Ейхмант розділяє роботів, які створюють загальнодоступні інформаційні бази, та роботів для користувачів, результат роботи яких, використовується лише однією людиною.
Той факт, що більшість авторів роботів використовують поради Мартина Костера показує, що вони свідомо ставляться до можливих проблем, та намагаються мінімізувати будь-який негативний вплив.
Альтернативи для пошуку ресурсів
Існує альтернативний підхід до пошуку ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Це інформація лише про локальні ресурси. Вона може бути створена вручну, а може автоматично з заголовків, або тегів META. Ця інформація додається до пошукової бази даних за допомогою звичайних WWW протоколів. Це не робот, тому що він не отримує рекурсивно документи які є в цьому індексі.
У цього способу є переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вище, ніж у звичайних індексів, тому, що підтримувати потрібно тільки локальну індексну інформацію. Дуже низькі вимоги до мережі, індексна інформація менша ніж весь сайт і отримується тільки один раз.
Є також декілька недоліків. Ручна підтримка індексної інформації може дати додаткові проблеми провайдеру інформації, але практично, індексна інформація для основних документів змінюється не часто. Іншим обмеженням є те, що інформаційні провайдери мусять записувати інформацію у заданому індексному форматі, що обмежує використання додаткових можливостей. На кінець, оновлення індексу є не дуже ефективними, бо увесь індексний файл треба прочитати заново, навіть якщо змінився лише один запис.
Така система, як описано вище, - ALIWEB вже працює з жовтня 1993 і дає не погані результати. Але подальший розвиток йде повільно, тому що це персональний проект, над яким працюють у вільний час, і який не отримує капіталовкладень.
Harvest — це інша система пошуку інформації, що була недавно випущена IRTF-RD, що пропонує програмні системи для автоматичного індексування змісту документів, ефективної реплікації та кешування такої індексної інформації на віддалених хостах, і на кінець пошук цієї інформації через інтерфейс у WWW. Реакції на цю систему були дуже позитивними.
ВисновокРоботи є дуже корисними та перспективними програмами для Інтернет, але при їх написанні потрібно враховувати, що вони можуть суттєво зменшити трафік для інших користувачів. Щоб цього не сталося, при написанні роботів потрібно користуватися методологією Мартіна Костера та підтримувати "Standard for Robot Exclusion".