<<
>>

Поисковые системы

Если для путешествия по «всемирной паутине» необходим бра- узер, то для поиска необходимой информации в Интернете ис- пользуются специальные информационно-поисковые системы, которые размещаются на общедоступных серверах.

Поисковые системы обычно состоят из трех компонентов:

1) агент (паук), который перемещается по сети и собирает информацию;

2) база данных, которая содержит всю информацию, собира- емую пауками;

3) поисковый механизм, который люди используют как ин- терфейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые по- исковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска используются для сбора информации о документах, на- ходящихся в сети Интернет. Это специальные программы, кото- рые занимаются поиском страниц в сети, извлекают гипертекс- товые ссылки на этих страницах и автоматически сортируют ин- формацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы.

Некоторые следуют за каждой ссылкой на каждой найденной странице и затем иссле- дуют каждую ссылку на каждой из новых страниц и т.д. Некото- рые игнорируют ссылки, которые ведут к графическим и звуко- вым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных; третьи проинструктированы, что нужно просматривать прежде всего наиболее популярные стра- ницы.

Когда кто-либо хочет найти информацию, доступную в Ин- тернете, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима.

Здесь могут использоваться ключевые слова, даты и другие крите- рии. База данных отыскивает предмет запроса и выводит соответ- ствующие документы.

Чтобы определить порядок, в котором спи- сок документов будет показан, база данных применяет алгоритм ранжирования. Различные поисковые системы используют различ- ные алгоритмы ранжирования:

• частоту цитируемости (как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе и обращаемо- сти);

• число слов запроса в текстовом содержимом документа;

• местоположение искомых слов в документе;

• удельный вес слов в общем числе слов документа. Эти прин- ципы применяются всеми поисковыми системами;

• время — как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный прин- цип. Но, в Интернете существует много сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, то это означает, что владелец весьма опытен в данной теме и пользова- телю больше подойдет сайт, который пару лет вещает миру о пра- вилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

База данных выводит ранжированный подобным образом спи- сок документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различ- ные способы показа полученного списка: некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе или заголовок до- кумента вместе с ссылкой. Когда вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запраши- вается у того сервера, на котором он находится.

Приведем примеры нескольких популярных поисковых систем.

AltaVista, www.altavista.coni — одна из старейших поисковых систем в Интернете. Первый Web-индекс был представлен компа- нией в 1995 г.

Ядро поисковой системы обязано своим рождением странной особенности исследовательской лаборатории компании «Digital Equipment Согр». Сотрудники этой лаборатории зачем-то храни- ли всю свою электронную переписку за последние 10 лет. Чтобы такое количество информации не просто занимало дисковое про- странство, а приносила хоть какую-то пользу, была создана про- грамма для индексирования документов и поиска нужных слов в ворохе «пожелтевшей от времени» электронной корреспонденции.

Система получилась настолько удачной, что впоследствии с успе- хом перекочевала на просторы «всемирной паутины».

Индекс AltaVista содержит документы более чем на 25 языках. Локализованные версии сайта AltaVista располагаются в доменах 20 стран. В область поиска можно включить документы на всех поддерживаемых языках или только в документах на определен- ном языке, а на специальной странице можно указать несколько языков для поиска на всех выбранных языках одновременно.

Окно поиска Alta Vista содержит следующие элементы (рис. 5.38, а):

• поле ввода запроса. В это поле вводится запрос для поиска интересующей вас информации. Запрос может представлять со- бой вопрос, утверждение, фразу или просто несколько слов, оп- ределяющих предмет поиска;

• меню выбора языка. С помощью раскрывающегося списка выбора языка можно ограничить область поиска только докумен- тами, написанными на указанном языке. В настоящее время под- держиваются 25 языков (среди них есть и русский);

• вкладки, ограничивающие область поиска. Вкладки, располо- женные над полем запроса, используются для того, чтобы указать системе, где искать интересующую вас информацию. По умолча- нию открыта вкладка Web. Это значит, что AltaVista будет искать информацию среди всех ресурсов World Wide Web. В зависимости от предмета поиска можно ограничиться поиском только среди изображений (Image), аудио- (Audio) или видеофайлов (Video) в тематических каталогах (Directory) или в разделе новостей (News).

• ссылки. В окне поиска имеются ссылки на раздел справочной информации (Help) и страницу настройки «семейного фильтра» (Family Filter).

AltaVista является одной из крупнейших систем поиска в Ин- тернете. Она обладает развитым языком запросов и отлично под- ходит для поиска в сети как специальной информации в опреде- ленной области, так и информации более общего характера.

Результат поиска можно видеть на рис. 5.38, б.

Hndex. Поисковая система Япбех располагается по адресу www.yandex.ru. Она была официально введена в эксплуатацию 23 сентября 1997 г.

Япбех — это полнотекстовая информационно-поисковая сис- тема, учитывающая морфологию русского и английского языков. Система Япбех предназначена для поиска информации в элект- ронных текстах различной структуры и разных способов представ- ления (форматов). Япбех не требует от пользователя знания специ- альных команд для поиска. Достаточно набрать текст: «Где найти дешевые компьютеры?» или «Нужны телефоны Москвы и Мос- ковской области» — и вы получите результат: список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поис-

а

б

Рис. 5.38. Поисковая система Alta Vista: а — начальное окно поиска Alta Vista; б — результат поиска

ка будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана ин- формация, содержащая и слово «окон», а на запрос «отзывали» — документы, содержащие слово «отозвали».

Япбех не только работает с языковыми запросами, но и позво- ляет выполнять поиск только на определенных серверах или же исключить из поиска заведомо ненужные серверы. Появилась воз- можность поиска изображений по подписям к ним и по именам файлов. Удобная работа с новыми возможностями предлагается на странице расширенного поиска, где сложный язык запросов сведен к заполнению полей в форме. Кроме стандартной сорти- ровки результатов — по релевантности, можно отсортировать до- кументы по дате обновления.

Кроме поисковых систем в Интернете имеются также элект- ронные каталоги документов, которые, в отличие от автомати- ческих индексных систем, составляются и упорядочиваются при участии человека.

Конечно, такие системы содержат информацию о меньшем числе ресурсов, но форма представления и методы сортировки материала выгодно отличают их от большинства ин- дексных поисковых систем. Ресурсы Интернета в каталогах упоря- дочены и распределены по тематическим категориям, поэтому, если вы интересуетесь какой-то определенной темой, каталог ре- сурсов будет для вас полезнее текстовой поисковой системы. На- пример, если вас интересует творчество поэтов Серебряного века и вы хотите найти документы с упоминанием того или иного по- эта, а сайт, полностью посвященный этой теме, то лучше обра- титься к каталогу Интернет-ресурсов. Обширный тематический каталог российских ресурсов имеется, например, на серверах wvw.ni или Mnogo.ru, предлагающих пользователю наряду с обычным текстовым поиском обратиться к сайтам, распределенным по раз- нообразным категориям. Кроме того, тематические каталоги в том или ином виде представлены на большинстве популярных сай- тов, в том числе на поисковых системах.

В Интернете имеется также большое число специализирован- ных поисковых систем на все случаи жизни. Можно найти адрес человека, квартиру, гостиницу, адвоката, работу и даже место расположения ближайшего банкомата. Вот, например, серверы для поиска медицинской информации в зарубежной части сети — Medical World Search (www.mwsearch.com) и в России — Центавр (http://www.centaur. ru/).

Системы метапоиска (параллельного поиска) передают сфор- мулированный пользователем запрос разным поисковым систе- мам, что позволяет выполнять поиск сразу в нескольких системах. Повторяющиеся ссылки, полученные от разных систем, как пра- вило, исключаются из представляемых пользователю результатов. Вот несколько адресов систем метапоиска:

• 360.ni (www.360.ru);

• Мета (http://meta-ukraine.com/);

• MetaCrawler (http://www.metacrawler.com).

5.6.2.

<< | >>
Источник: Калмыкова Е. А.. Информатика. 2012

Еще по теме Поисковые системы:

  1. АКТИВНОСТЬ ПОИСКОВАЯ
  2. Параграф 4. Подряд на проектные и поисковые работы
  3. Статья 887. Договор подряда на проведение проектных и поисковых работ
  4. Глава 2 Поисковый психологический портрет серийного преступника
  5. Типовые модели поискового портрета
  6. ХАРАКТЕРИСТИКА РЕПРОДУКТИВНЫХ И ПРОБЛЕМНО-ПОИСКОВЫХ МЕТОДОВ ОБУЧЕНИЯ
  7. Поисковая деятельность
  8. 2.2. В каких случаях, как и на основании чего строится поисковый психологический портрет
  9. Статья 888. Исходные данные для проведения проектных и поисковых работ
  10. Основной этап (обзорная и поисковая стадии обыска)