<<
>>

Поиск в Паутине

В настоящее время по оценкам специалистов на веб-серверах Интернета разме- щено несколько миллиардов веб-страниц, содержащих информацию практически по всем сферам человеческой деятельности.
Получение доступа к нужной инфор- мации в том случае, если известен адрес веб-страницы или веб-узла, не вызывает затруднений — достаточно ввести этот адрес в соответствующее поле обозревателя и через некоторое время страница отобразится в его окне. Другое дело, если адрес пользователю неизвестен. Пересмотреть в поисках нужной информации сложно даже несколько сотен узлов, не говоря уже о миллионах и миллиардах. Поэтому в Паутине разработаны различные способы решения этой задачи — автоматизации поиска на сайтах Интернета. С некоторыми механизмами и системами, автоматизирующими поиск информа- ции, мы знакомились выше, когда обсуждали поиск нужной справки в справочной системе, поиск вхождений образца в текстовом документе, запросы в базах данных. Проблема поиска во Всемирной паутине гораздо сложнее, так как информация раз- бросана по миллионам веб-серверов, которые находятся в различных странах.
Тем не менее, в настоящее время в Интернете существуют системы, обеспечивающие пользователя средствами достаточно быстрого поиска нужной ему информации. Разработано несколько десятков различных поисковых систем, обладающих раз- ными возможностями по заданию образцов поиска, созданию запросов, а также разными множествами просматриваемых узлов и страниц. Фактически поисковая система (поисковик) является специализированным веб-сервером, на котором постоянно накапливается информация о веб-страницах и сайтах, находящихся на обычных веб-серверах Интернета. Эта информация в специальном кратком виде сохраняется и периодически обновляется на дисковых устройствах системы. Любой пользователь может обратиться к поисковому серверу и сформулировать запрос на поиск нужной информации.
Поисковая система, просматривая свои диски, находит и пересылает пользователю обнаруженные адреса веб-страниц, которые содержат нужную информацию. Все поисковые системы делятся на две большие группы: поисковые каталоги и поисковые машины. Поисковые каталоги представляют собой огромные базы данных, которые содержат адреса веб-узлов по всему информационному про- странству Интернета. Эти базы данных созданы и периодически обновляются людьми — специалистами в области систематизации веб-ресурсов. Каталоги организованы в иерархическую многоуровневую структуру — рубрикаторы — и предоставляют пользователям два способа поиска информации. Первый способ напоминает перемещения по списку ресурсов (каталогам и подкаталогам) в окне проводника операционной системы Windows. На стартовой странице поискового каталога выбирается тема, рубрика верхнего уровня, и после щелчка по названию этой темы в окне отображается список разделов, тем следующего уровня. В примере на рис. 12.8. изображена стартовая страница популярного российского поискового каталога Катапог@МАIL.RU (httр:// list.mail.го). Видно, что рубрики верхнего уровня содержат названия общих тем.
Рис. 12.8. Пример стартовой страницы каталога Каталоr@МАIL.RU

Так, после щелчка по ссылке Культура и искусство в окне обозревателя отобра- зится перечень тем, входящих в эту рубрику (рис. 12.9). Последовательно уточняя таким способом свой запрос пользователь может выйти на адреса интересующих его веб-страниц. Второй способ работы с поисковыми каталогами предусматривает выбор несколь- ких слов, которые существенно отражают смысл запрашиваемой информации. Такие слова принято называть ключевыми. Далее поиск в каталоге напоминает поиск в документе текстового редактора: ключевые слова вводятся с клавиатуры в специальное поле веб-страницы поискового каталога и выполняется щелчок по кнопке Найти (см.

рис. 12.8 и 12.9). Специальные механизмы автоматически про- сматривают все уровни каталогов и сообщают пользователю найденные адреса.

Наиболее популярными поисковыми каталогами в настоящее время в России считаются: один из крупнейших в мире англоязычный каталог Yahoo! (httр://www. yahoo.com), а также отечественные каталоги МаviсаNеt (www.mavicanet.ru), Ката- лог@Маil. ru (list.mail.ru) и Иван Сусанин (wwwalt.susanin.net). Принцип действия поисковых машин отличается от принципа действия поисковых каталогов. Поисковые машины включают в себя базу данных, поля записей которой содержат адреса веб-страниц, ключевые слова, встречающиеся на этих страницах, и другую информацию, позволяющую охарактеризовать содержимое страниц. Кро- ме того, в состав поисковой машины входит специальная программа — поисковый робот или Spider (spider — паук). Задача поискового робота — в автоматическом режиме просматривать веб-узлы Интернета и при обнаружении ссылки на какую- либо веб-страницу запоминать в специальной таблице — индексе базы данных — ее адрес и остальные ее характеристики. Такие системы поиска в условиях бурного роста количества веб-страниц непрерывно отслеживают их содержимое, тщательно «прочесывая» их с помощью своих агентов — «пауков», которые просматривают и индексируют все вновь поступившие страницы. Пользователь, обращающийся к поисковым машинам, по специальным правилам формулирует запрос, в соот- ветствии с которым осуществляется просмотр индексов. Найденные адреса веб- страниц пересылаются пользователю, направившему запрос. В настоящее время наиболее популярными поисковыми машинами являются: Google (http://www.google.com), АltаVistа(httр://www.аltаvistа.соm), Yahoo! (httр:// www.уаhоо. сот). К лучшим отечественным поисковым серверам относятся: Яндекс (http://www.Yandex.ru), Rambler (http://www.rambler.ru) и Апорт (http://www.aport.ru).

Отметим, что разные поисковые узлы обладают разными скоростями поиска, разными сферами обхвата информационного пространства и разными периодами обновления базы дашiых. Внешний вид, точнее графическое оформление домашних страниц поисковых серве- ров, может быть самым разным. Но в любом случае в окне имеется так называемая поисковая форма, содержащая как минимум поле ввода зап]юса и расположенную рядом кнопку Найти (или Поиск). Пример домашней страницы поисковой системы Google, которая содержит указанные элементы, изображен на рис. 12.5. Правила работы с поисковыми системами в общих чертах похожи на правила поиска в текстовом редакторе и отличаются друг от друга в деталях. Обычно эти правила приведены в справках поисковых серверов, для доступа к которым следует щелкнуть по гиперссылке Помощь (Справка, Help) на домашней странице сервера. В качестве примера рассмотрим правила формирования запросов на сервере Google. В простейшем случае запрос представляет собой слово или последова- тельность разделенных пробелами ключевых слов, которые /должны находиться в разыскиваемых документах. Последовательность может быть осмысленным сочетанием слов, целым предложением или просто набором важных слов, при- сутствие которых обязательно. Пример запроса, сформулированного в виде целого предложения: Кто получил Нобелевскую премию по литературе в 2001 году? Этот запрос можно сформулировать и как последовательность ключевых слов: Нобе- левская премия литература 2001 год. Отметим, что порядок следования ключевых слов в запросе и их грамматическая форма большого значения не имеют. Можно, скажем, дать такой запрос: литература 2001 Нобелевская год премия. Поисковая машина Google не различает заглавных и строчных букв в поисковых запросах. Поэтому запросы, содержащие ключевые слова Нобелевская или нобелевская, приведут к одинаковому результату. Независимо от того, в какой грамматической форме слово входит в запрос, поиск учитывает все его формы по правилам русского языка. Например, если в запросе встретилось слово идти, в результате поиска будут найдены ссылки па документы, содержащие слова идти, идет, шел, шла и т.
д. Поисковая машина Google игнорирует в запросе союзы и предлоги (кто, где, как, по, на и т. д.). Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в запрос, необходимо использовать символ «+». Например, чтобы найти информацию о Петре Первом в запросе следует указать: Петр +l. Обратите внимание на необходимость пробела между словом Петр и знаком +. Знак + акцен- тирует поисковые механизмы на отбор документов, которые обязательно содержат следующее за ним слово. Например, в ответ на запрос частные объявления прода- жа велосипедов попадет много ссылок па веб-узлы с разнообразными частными объявлениями. А в ответе на запрос частные объявления продажа +вeлocиneдoв останутся только объявления о продаже именно велосипедов. По умолчанию считается, что все ключевые слова запроса связаны логической операцией И, то есть все ключевые слова должны присутствовать на веб-странице одновременно. Это не значит, что слова обязаны располагаться подряд и в том порядке, в котором они перечислены в запросе. Важен факт наличия слова в любом месте веб-страницы. И если все указанные в запросе ключевые слова где-нибудь, в каком угодно порядке обнаружатся на веб-странице, она считается соответствующей запросу. Поисковая машина Google поддерживает логическую операцию ИЛИ. Эта опера- ция в запросе обозначается словом OR. Например, для поиска страниц, которые должны содержать либо слово фонд, либо слово общество следует составить такой запрос: фонд OR общество. В результате будут отобраны веб-страницы, которые содержат либо слово фонд либо слово общество, либо оба слова вместе. Чтобы отобрать документы, в которых отсутствует какое-либо ключевое слово, перед ним нужно поставить знак минус. Если, например, требуется туристическое описание Парижа, а не предложения многочисленных туристических агентств, можно сформулировать запрос следующим образом: путеводитель Париж -агентство -турист. Еще раз обратите внимание на правила записи знаков «+» и «-» в запросе. Эти знаки надо писать через пробел от предыдущего и слитно с последующим словом, например: рак -гороскоп.
Если написать рак-гороскоп или рак - гороскоп, знак «-» будет проигнорирован. Словосочетания, которые должны находиться в отыскиваемых документах, не- обходимо заключать в кавычки. Например, по запросу «красная шапочка» будут найдены документы именно с этой фразой, в которой эти слова идут строго под- ряд и в указанной грамматической форме. Документ, содержащий предложение «а шапочка у нее была красная», найден не будет. Для создания более сложных запросов, в которых предусматривается фильтрация по языку, по срокам изменения веб-страницы, по месту расположения образца поиска в документе и т. д., следует щелкнуть по гиперссылке Расширенный поиск. Подробная информация о правилах составления расширенных запросов может быть получена в справочной системе сервера. Сформулированный запрос следует ввести в поле запроса на любой странице поискового сайта, а затем щелкнуты iо кнопке Найти (Поиск) или нажать клавишу Enter. Поисковая машина отберет соответствующую запросу информацию и пе- решлет результат его выполнения пользователю. Рассмотрим в качестве примера запрос Формат MPEG-4. Эго значит, что разыскиваются документы, содержащие информацию о видеоформате МРЕG-4. По такому запросу отбираются документы, в которых встречаются все входящие в него слова. Фрагмент результата выпол- нения указанного запроса поисковой системой Апорт показан па рис. 12.10. Обычно в ответе на запрос указывается общее количество найденных документов и на одной странице ответа размещается несколько фрагментов найденных доку- ментов, отвечающих условиям запроса. В начале каждого фрагмента указывается название узла и его адрес. Далее размещаются название, адрес и удовлетворяющий условиям запроса участок страницы. В данном примере, в частности, найден узел Цифровое видео::digital video online с адресом http://www.digitalvideo.ru. Каж/iый адрес представляет собой гиперссылку. Поэтому, щелкнув по адресу можно вызвать в ок- но обозревателя найденный документ целиком. С помощью ссылки Реконструкция текста можно вызвать только текстовую часть найденной страницы. В нижней части страницы ответа находятся пронумерованные кнопки ϋ) вызова очередных групп фрагментов найденных документов. Па рис. 12.10 изображены двадцать таких кнопок. Правее последней кнопки находится значок К показыва- ющий, что кроме указанных на текущей странице имеются и другие группы фраг- ментов, получить доступ, к которым можно щелчком по этому значку. Аналогичные способы представления ответов на запросы имеют все поисковые системы.
Рис. 12.10. Результат выполнения запроса поисковым сервером Апорт

Многие поисковые машины имеют рубрикаторы, аналогичные рубрикаторам поис- ковых каталогов. Если в таком рубрикаторе выбрать некоторый уровень и сформу- лировать обычным образом запрос, это может значительно сузить зону поиска. Приведем некоторые советы по формированию запросов, которые даны в спра- вочной системе поисковой машины Яндекс. Это достаточно общие рекомендации, которым можно следовать и при использовании других поисковых серверов. СОВЕТ-------------------------------------------------------------------------------------------------------------- Если ответ содержит ссылки на несколько тысяч документов, отбор нужного доку- мента прямым просмотром всех найденных является нереальной задачей. В таких случаях запрос нужно уточнять или сужать зону поиска. Если же ответ не содержит ни одного документа или отобранные документы не содержат желательных данных, запрос следует переработать в сторону расширения зоны поиска. Если поиск не дал ни одного документа, возможно, допущена орфографическая ошибка в написании слова. Целесообразно проверить правильность написания всех слов запроса. Если список найденных страниц слишком мат или не содержит полезных страниц, можно попробовать изменить ключевое слово. Например, вместо слова рефера- ты возможно лучший результат дадут запросы курсовые работы или сочинения. Можно попробовать задать для поиска три-четыре синонима сразу в логической связке ИЛИ. Тогда будут найдены страницы, где встречается хотя бы одно из них. I Iапример, вместо запроса фотографии можно попробовать запрос фотографии OR фото OR фотоснимки (запрос сформулирован по правилам сервера Google). Слова психология или продукты дадут при их использовании в запросе поодиноч- ке множество неинтересных ссылок. Следует добавить к запросу одно или два ключевых слова, связанных с искомой темой. Например, психология Юнга или продажа и покупка продовольствия. Рекомендуется также сужать область вопроса более точной формулировкой запроса. Если нужны сведения об автомобилях ГАЗ, запросы автомобиль Волга или автомобиль ГАЗ выдадут более подходящие документы, чем легковые автомобили. Заглавные буквы в запросе рекомендуется использовать только в именах собс- твенных. Например, «группа Черный кофе», «телепередача Здоровье». Не следует набирать обычные слова с большой буквы, даже если с них начинается запрос. ВНИМАНИЕ-------------------------------------------------------------------------------------------------------- Правила формирования запросов при использовании различных поисковых сер- веров могут в деталях отличаться от описанных выше, поэтому начинать работу с тем или иным поисковым сервером следует с ознакомления с его справочными материалами. В заключение отметим, что для осуществления поиска не обязательно явно об- ращаться к поисковому серверу. Обозреватель Internet Explorer имеет специали- зированную панель поиска, в которой можно сформировать запрос точно так же, как и на веб-страницах поисковых машин (см. рис. 12.6, в центре). Чтобы открыть эту панель, следует щелкнуть по кнопке Поиск, воспользоваться сочетанием Сtrl+Е или выбрать команду Вид ► Панели обозревателя ► Поиск. Обозреватель автоматически направит запрос к поисковой системе, которая определена его на- стройками. В частности, по умолчанию обозреватель Internet Explorer направляет запрос к поисковому серверу MSN Search. Для изменения поискового сервера, к которому обозреватель направляет запрос, следует щелкнуть по кнопке На- строить в панели Поиск и в окне Настройка параметров поиска выбрать название поисковой системы. Отметим также, что поля для ввода запроса и перенаправ- ление к популярным поисковым системам можно найти на стартовых страницах многих сайтов и порталов. Для упрощения доступа к мультимедийным веб-узлам, организации поиска аудио- и видеозаписей, а также станций, ведущих прямое радиовещание в Интернете, предусмотрена еще одна специализированная панель Медиа (см. рис. 12.6, справа. Чтобы открыть эту панель, нужно щелкнуть по кнопке ^ Медиа или выбрать команду Вид ► Панели обозревателя ► Медиа. В ее верхней части расположены ссылки, обеспечивающие доступ к локальным и сетевым мультимедийным ресур- сам, а в нижней — элементы управления универсальным проигрывателем Windows Media, который входит в комплект поставки операциошюй системы Windows ХР. Поиск мультимедийных файлов и радиостанций осуществляется с помощью описанных выше общих механизмов, методов и приемов. 12.5.13.

<< | >>
Источник: А. Н. Степанов. Информатика Базовый курс для студентов гуманитарных специальностей высших учебных заведений 6-е издание. 2010

Еще по теме Поиск в Паутине:

  1. Поиск смысла жизни – это поиск бессмертия!
  2. ПОИСК ИНФОРМАЦИОННЫЙ
  3. ЧАСТЬ 2 В ПОИСКАХ УТРАЧЕННОГО «Я»
  4. ТЕОРИЯ ПОИСКА СМЫСЛА ЖИЗНЕННОГО
  5. Направление поиска работы
  6. Направление поиска работы
  7. 3.11.6. Поиск на ощупь
  8. Направление поиска работы
  9. Направление поиска работы
  10. Направление поиска работы
  11. Направление поиска работы
  12. Направление поиска работы
  13. Направление поиска работы
  14. Направление поиска работы
  15. Направление поиска работы