<<
>>

Браузеры. Средства поиска информации в Интернете

Одной из основных задач, решению которых должны способствовать средства вычислительной техники, — удовлетворение информационных потребностей пользователей. Информационный поиск — это, пожалуй, наиболее частая причина использования компьютеров в профессиональной деятельности пользователей.
Качественный скачок в сфере доступа к информационным ресурсам произошел с предоставлением пользователям возможностей работы с информационными ресурсами, не только сконцентрированными в каком-либо одном, централизованно созданном и обслуживаемом хранилище данных, но и расположенными в различных «узлах» локальных и глобальных вычислительных сетей.

Можно указать два главных фактора, обеспечивающие успех либо неуспех доступа пользователя к тому или иному информационному ресурсу (при условии соответствующего аппаратно- программного обеспечения):

— суммарный объем (размер) информационных ресурсов, к которым обеспечен доступ в той или иной локальной/глобаль- ной сети;

— уровень дружественности интерфейса, предоставляемого в распоряжение пользователя для доступа к информационным ресурсам сети.

Чем больше информационных ресурсов объединено в рамках локальной/глобальной сети, тем успешнее будет информационный поиск пользователя, получившего доступ к этой сети. Если сеть объединяет информационные ресурсы в общемировом масштабе, то для пользователя именно такая (глобальная) сеть будет наиболее предпочтительна.

Для доступа к информационным ресурсам, расположенным на компьютерах, являющихся элементами такой глобальной сети, пользователю необходим дружественный интерфейс, обеспечивающий:

— выход пользователя на требуемый информационный ресурс при условии наличия механизма уникальной адресации местоположения «порций» информации в сети;

— просмотр содержимого найденного информационного ресурса;

— сохранение, при необходимости, найденной информации (данных) на своем компьютере.

Кроме того, для такого интерфейса желательно кроме поддержки функций, указанных выше, наличие различных сервисных возможностей, например обеспечивающих повторный выход на информационный ресурс без указания его уникального «адреса» в сети. Желательно также, чтобы пользователь имел один и тот же интерфейс для доступа к информационным ресурсам как глобальной, так и локальной сети (например, локальной сети своего подразделения), т. е. размеры, «масштаб» сети не должны влиять на процедуры поиска, просмотра и сохранения информации пользователем.

В настоящее время существует и успешно функционирует общемировая глобальная сеть Интернет, не имеющая равных по объемам информационных ресурсов, к которым обеспечен доступ ее пользователей. При создании данной сети, которая представляет собой виртуальное объединение десятков тысяч локальных (и глобальных) сетей, разработчикам удалось решить наиболее трудную задачу, возникающую при подобном объединении, предложить такие правила (протоколы) обмена данными в сети, которые были приняты и «поддержаны» де-факто как единые стандарты обмена между всеми существующими типами локальных сетей в мире. Именно это послужило основой для лавинообразного роста размеров глобальной сети Интернет.

Любой компьютер, подключенный к сети Интернет, получает уникальный адрес.

Для поиска Web-страницы по ее url-адресу, формирования и отображения (просмотра) содержания страницы на экране компьютера используются специальные программы — браузеры.

браузер обеспечивает дружественный интерфейс пользователя при работе с информационными ресурсами сети Интернет. Именно разработка браузеров стала, наряду с утверждением стандартных протоколов обмена между сетями, причиной широкого распространения сети Internet.

Браузер выполняет следующие основные функции:

— устанавливает связь с Web-страницей по ее адресу и обеспечивает управление загрузкой содержимого страницы на локальный компьютер пользователя;

— отображает содержимое страницы на экране компьютера, в том числе и компоненты мультимедиа, в соответствии с настройками пользователя и возможностями аппаратно-программного обеспечения компьютера;

— сохраняет содержимое страницы (фрагмента страницы) на компьютере пользователя;

— обеспечивает сервисные возможности работы со страницами, например упрощает доступ к страницам, посещавшимся ранее;

— предоставляет доступ к средствам для работы с другими сервисами Интернета (например, электронной почте и передаче файлов по протоколу FTP).

В настоящее время наиболее популярны браузеры Internet Explorer, разработанные корпорацией Microsoft.

Одним из самых популярных информационных сервисов в сети Интернет является прием и передача файлов. Этим сервисом пользуются, например, при передаче файлов программ, книг, архивных файлов с большими объемами информации. Протокол FTP ориентирован именно на передачу файловой информации (в отличие от протокола HTTP, ориентированного на передачу гипертекстовой информации). Для передачи и приема файлов по протоколу FTP можно использовать как специальные приложения (одним из популярных является приложение GetRight), так и браузеры. Однако при больших объемах и количестве передаваемых файлов рекомендуется использование специальных программ, обладающих дополнительными сервисными возможностями, которые отсутствуют у браузеров.

Как указывалось выше, желательно, чтобы пользователь имел один и тот же интерфейс для доступа к информационным ресурсам как глобальной, так и локальной сети. Обеспечение данного условия явилось одной из основных причин появления интранет-сетей. 1Шгапе!-сеть — это внутренняя сеть предприятия, организации, использующая стандарты, технологии и программное обеспечение сети Интернет (в том числе и протоколы межсетевого обмена). В этом случае интерфейс пользователя с информационными ресурсами предприятия обеспечивается теми же браузерами, что и при работе в сети Интернет.

Поиск информации в сети Интернет. Если пользователю известен адрес страницы, на которой находится требующийся ему информационный ресурс, то достаточно указать этот адрес в соответствующем окне браузера. В противном случае пользователь обращается к поисковым системам сети Интернет, которые располагаются на так называемых поисковых серверах.

Поисковая система ориентирует пользователя на два вида поиска:

— поиск по тематике (каталогам);

— поиск по произвольно сформулированному запросу пользователя (степень «произвольности» определяется правилами описания запроса, устанавливаемыми поисковой системой).

Результат поиска — список адресов ШеЬ-страниц, которые с «точки зрения» поисковой системы содержат требующиеся пользователю данные.

Поиск по тематике будет эффективен, если тема, которая интересует пользователя, есть в тематическом каталоге. Однако наиболее типична ситуация, когда такой темы/рубрики нет. Тогда поисковая система предоставляет возможность поиска по запросу: по определенным правилам в окне поискового запроса формируется требование (словами естественного языка) на поиск необходимой информации (что надо найти). Запрос обрабатывается специальной программой (так называемой поисковой машиной), и пользователю выдается список адресов страниц, которые, по «мнению» этой программы, содержат информацию, которая отвечает запросу пользователя.

Для того чтобы правильно формулировать запрос для поисковой машины, важно понимать, каков алгоритм поиска, по которому работает поисковая программа. В основу алгоритма поиска по запросу положены следующие принципы:

1. Предполагается, что частота, с которой встречается в документе слово (точнее, его основа — без учета разных окончаний и т. п.), характеризует степень важности этого слова для понимания смысла документа. Если по некоторому критерию выделить те слова документа, которые встречаются в нем наиболее часто (указав некоторый уровень минимальной частоты), то множество этих слов будет характеризовать смысл документа, а сами эти слова называют ключевыми словами документа.

2. Для обеспечения поисковых запросов пользователей ПС формирует специальную базу данных (БД): программа ПС «обходит» страницу за страницей в сети Интернет и, рассматривая содержимое страницы как документ, формирует для каждой из анализируемых страниц соответствующее множество ключевых слов — так называемый поисковый образ страницы. Таким образом, в базе данных хранится не сама страница, а множество ключевых слов, которые отражают смысловое содержание данной страницы; причем это множество получено в результате предварительной обработки программой содержания страницы.

БД постоянно пополняется; объем ее и определяет успех поиска по запросу пользователя, поскольку именно в этой БД (а не в самой сети Интернет) идет поиск по запросу. Следует понимать, что все БД всех поисковых серверов не содержат и десятой доли адресов страниц сети Интернет.

3. Запрос пользователя рассматривается так же, как документ, и обрабатывается поисковой машиной так же, как и содержимое страницы. В результате запрос представляется как множество ключевых слов (запроса), отражающих его смысл (поисковый образ запроса).

4. Итак, мы имеем поисковый образ запроса (множество ключевых слов запроса), с одной стороны, и накопленные в БД поисковой системы поисковые образы страниц (множества ключевых слов страниц) — с другой.

5. Поисковая машина проводит сравнение поискового образа запроса с каждым из поисковых образов страниц, хранящихся в БД. Если в результате сравнения количество совпавших ключевых слов запроса и страницы превышает некоторый установленный уровень, то соответствующая страница считается удовлетворяющей запросу и пользователю выдается адрес этой страницы.

При замене страницы/запроса поисковым образом страни- цы/запроса и при сравнении поисковых образов часть смыслового содержания теряется из-за несовершенства принципов поиска и конкретных алгоритмов, реализующих эти принципы.

Поэтому в результате часть страниц не имеет к нашему запросу никакого отношения (с нашей, а не с машинной точки зрения). В то же время многие страницы, поисковые образы которых есть в БД и соответствуют нашей информационной потребности (с нашей точки зрения, а не с машинной), выраженной в запросе, не будут опознаны и выданы поисковой машиной. В общем случае говорят о неточности и неполноте поиска по запросу (в идеале хотелось бы иметь 100%-ную точность и полноту поиска). Для улучшения результатов поиска рекомендуется:

— использовать по возможности все доступные поисковые серверы;

— переформулировать запрос, сохраняя (а может быть, и меняя) его смысловое содержание;

— изучить особенности (правила) формулирования запроса на конкретном поисковом сервере; хотя основные правила для разных поисковых серверов интуитивно понятны и похожи, каждый из них имеет свои особенности.

В заключение приведем адреса наиболее популярных поисковых серверов (следует отметить, что каждый из этих поисковых серверов имеет в тематическом каталоге соответствующую рубрику, в которой содержатся десятки адресов поисковых систем): http://www.rambler.ru http://www.yandex.ru http://aport.ru http://www.list.ru

При использовании того или иного поискового сервера необходимо учитывать, носители какого языка формировали его информационные ресурсы. На англоязычных поисковых серверах будет, естественно, накоплено гораздо больше англоязычных ресурсов, чем на русскоязычных, и наоборот. Поэтому, если ищутся англоязычные источники, то следует пользоваться англоязычными поисковыми серверами, такими, как: http://www.av.com http://www.yahoo.com http://www.google.com

<< | >>
Источник: А.Н. Данчула. Информатика. 2004

Еще по теме Браузеры. Средства поиска информации в Интернете:

  1. 11.2.1. Область реализации права на поиск, получение и потребление информации в Интернет
  2. 13.8. Средства массовой информации и Интернет
  3. 1. Интернет—источник информации
  4. 11.2.3. Область информационных технологий и средств их обеспечения в Интернет
  5. В ПОИСКАХ ТЕМЫ И ИНФОРМАЦИИ
  6. 3.3.1. Поиск информации
  7. 2.2.1. Область поиска, получения и потребления информации
  8. ГЛАВА 6 ПРАВО НА ПОИСК, ПОЛУЧЕНИЕ И ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИИ
  9. 6.1. Конституционная основа поиска, получения и передачи информации
  10. 6.3. Право на поиск и получение документированной информации из государственных информационных ресурсов
  11. 13.3. Государственная поддержка средств массовой информации