Важной задачей для определения эффективного использования Web- сервера и оптимальной маркетинговой стратегии является получение и обработка данных о посещаемости сайта. В зависимости от характера бизнеса требуется различная информация о посещениях. При продаже собственных товаров (услуг) - наиболее важно предоставить с помощью сайта соответствующую информацию большому числу потенциальных покупателей и убедить посетителей приобрести товар. Продавая рекламное пространство, необходимо максимально увеличить число посетителей сайта, что бы они чаще видели размещённую на нём рекламу. Имея такую информацию, можно своевременно вносить необходимые изменения и привлекать дополнительное число потенциальных клиентов к продукции.
Система сбора и анализа статистической информации по посещаемости сайта должна собирать следующие основные сведения:
- количество хостов (уникальных IP – адресов), хитов (общее число загрузок страниц) как по сайту, так и по каждой странице, - статистика по использованию посетителями ОС и браузеров, - информация о IP- адресах и времени посещения каждым посетителем, - информация по числу посетителей, приходящих на сайт с поисковых систем, - количество посещений со страниц, на которых установлены ссылки на сайт.
Применяются бесплатные продукты – известные системы Web Stat, Analog, реализованные в виде java – аплета. Они читают в режиме реального времени журнал сайта и на html –странице отражают фиксированное количество отсчётов. Эти решения применимы при небольшом размере журнала и минимальных потребностей пользователей. В России существует популярный аналитический сервис – Sply Log компании NetIQ, на западе – сервис Web Trends одноимённой компании. Он предоставляется на сайте третьей фирмы компаниям, желающим арендовать чужие вычислительные ресурсы. Владелец сайта размещает у себя специальный скрипт – шпион (spider), который получает информацию от браузера посетителя и отправляет его на сайт поставщика сервиса. Здесь информация заносится в общую базу данных. Пользователь сервиса при заходе на личную страницу делает запросы статистики и получает отчёт заданной формы, содержащий анализ посещаемости сайта. Здесь информация об основных источниках трафика, выявленные популярные страницы, география посетителей. Всё это позволяет определить сильные и слабые стороны сайта и выработать стратегию улучшения его содержания и структуры.
Существуют три основные способа идентификации посетителей: 1 – по IP адресу компьютера посетителя. Этот способ даёт максимальные ошибки. Сайт могут посещать несколько пользователей, работающих с одним IP адресом через прокси – сервер. 2 – по файлам cookies, которые сервер при его посещении через браузер оставляет на компьютере пользователя. Здесь файлы cookies идентифицируют браузер пользователя, а не конкретного посетителя. 3 – при обязательной регистрации пользователя. Система в течение всего визита однозначно идентифицирует его. Этот способ имеет минимальную погрешность при подсчёте посетителей, но используется на отдельных сервисах.
Основными методами сбора информации о посетителях являются:
1 – использование статистики, получаемой при анализе лог – файлов сервера,
2 – применение Web –анализаторов.
Для регистрации на сервере используются 4 основные файла: access log (журнал регистрации доступа), error log (журнал регистрации ошибок), referrer log (журнал ссылок) и agent log (журнал агентов). Именно эти журналы являются единственным источником информации о трафике. Web – анализаторы строятся по следующему принципу: инициализация, настройка параметров, чтение лог – файлов, обработка данных, семантический анализ, вывод результатов. Особое внимание уделяется при этом созданию интеллектуальных систем для анализа трафика и идентификации пользователей.