Релевантность

При поиске в Internet важны: полнота охвата (ничего не потеряно из имеющейся информации) и точность (не найдено лишней), т. е., иначе говоря, релевантность есть степень отношения ответа запросу. Каждая поисковая машина имеет свой алгоритм сортировки результатов поиска. Чем ближе к началу списка стоит нужный вам документ, тем выше релевантность.

Так как крайне редко бывает точное совпадение, поисковый сервер выдает вначале документы с максимальным соответствием (релевантностью), и далее по ниспадающей. Релевантность документа зависит не только от числа слов запроса, найденных в документе, но и от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д. Рассмотрим, к примеру, как вычисляется релевантность вашей страницы в запросе Яndex

•Самый высший приоритет дает заголовок

•Далее наиболее высокий приоритет дается ключевым словам, расположенным в самом верху страницы

•Далее – приоритет количеству повторений/вхождений ключевых слов

Проверить релевантность можно только экспериментально. Для сравнения рекомендуется делать запросы различной длины. Можно также использовать язык запросов, а тем, кому не хочется читать описание, следует обратиться к развернутой странице запроса (расширенный поиск — в «Апорте» и «Яндексе», детальный запрос — в «Рэмблере»).

Так как крайне редко бывает точное совпадение, поисковый сервер выдает вначале документы с максимальным соответствием (релевантностью), и далее по ниспадающей. Релевантность документа зависит не только от числа слов запроса, найденных в документе, но и от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д. Рассмотрим, к примеру, как вычисляется релевантность вашей страницы в запросе Яndex. •Самый высший приоритет дает заголовок •Далее наиболее высокий приоритет дается ключевым словам, расположенным в самом верху страницы •Далее – приоритет количеству повторений/вхождений ключевых слов

Охват и глубина поиска

Под охватом поиска понимается объем базы поисковой машины, который измеряется общим объемом проиндексированной информации, числом уникальных серверов и количеством документов, а под глубиной — наличие ограничения на количество страниц или глубину вложенности каталогов на одном сервере.

Как проверить эти характеристики? Некоторые машины дают на своей Web-странице статистику «робота». Но можно проверить и самостоятельно, задав несколько поисковых запросов, состоящих из одного слова, дабы исключить влияние языка запросов, включая различие в понимании пробела. При этом необходимо обратить внимание на статистику результатов, выдаваемую машиной. Обычно в начале списка указано количество всех найденных документов. Причем рекомендуется, чтобы слова были взяты из разных областей, но отличались по частоте употребления («весам»): редкие, «средние» и «тяжелые». А затем следует проанализировать ответы. «Тяжелые» слова, в частности, тестируют полнотекстовую индексацию документа для данной поисковой машины.

Глубину хождения «робота» проверить сложнее. Для этого нужно взять какие-либо Web-страницы, например с разветвленной структурой архивов, и проверить, проиндексированы ли те документы, на которые можно попасть, допустим, только за шесть переходов по ссылкам.

Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация последнего добавленного ресурса и обновляется информация в базе данных. Важным показателем качества поисковой машины (ее работы) является не только «захват» новых территорий, но и отслеживание состояния уже захваченных, так как серверы исчезают и появляются, да и их страницы обновляются. Ссылки, которые выдает поисковая машина в списке ответа, должны существовать, а их содержание — соответствовать запросу.

Для того чтобы это проверить, информацию нужно получить экспериментальным путем. Так, для определения скорости обхода создайте где-нибудь страницу с текстом. Затем добавьте ее туда, где ведете поиск, и посмотрите, как быстро она будет найдена. Или измените уже существующую страницу. Чтобы определить актуальность ссылок, проверьте документы, приведенные по крайней мере на первой странице списка, найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ больше не существует.

Наряду с релевантностью имеются и другие важные пользовательские характеристики.

Скорость поиска

Если поисковая машина отвечает медленно, то работать с ней неэффективно. Стоит иметь в виду, что воспринимаемая пользователем скорость зависит не только от характеристик поисковой машины, но и от каналов связи.

Это также проверяется экспериментально. Для этого надо производить поиск с помощью запросов разной длины и «тяжести» слов, а также в разное время суток, поскольку загрузка серверов неравномерна и ее пик обычно наступает около трех-четырех часов дня.

Поисковые возможности (работа с языками документов и запросов)

Важен еще один пункт, по которому сравниваются машины: что именно и как они вносят в индекс. Полнотекстовая поисковая машина индексирует все слова текста, видимого пользователю. Учет морфологии в языке запросов позволяет находить искомые слова во всех склонениях или спряжениях. Кроме того, в языке HTML существуют теги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т. п.).

Язык запросов, использующий стандартные логические операторы И, ИЛИ и НЕ, присущ практически всем машинам. Причем некоторые из них умеют искать словосочетания или слова, отстоящие на заданном расстоянии, что зачастую бывает важно для получения разумного результата. Дополнительной возможностью является поиск в таких зонах документа, как заголовки, ссылки, ключевые слова (META KEYWORDS) и т. д.

Кроме того, язык запросов допускает специальную форму естественно-языкового запроса, при которой не требуется знание операторов. Чтобы проверить это, используют информацию, публикуемую на сервере поисковой машины (в help-файле). Тем не менее проверку такой возможности рекомендуем проводить с помощью реальных запросов, поскольку нередко желаемое выдается за действительное.