Объединение Gopher-серверов называется gopher-пространством.
В 1994 г. была создана универсальная поисковая машина Veronica, которая могла осуществлять поиск информации по всем серверам gopher-пространства.
Достоинство: простота организации поисковых алгоритмов.
Недостаток: ограниченная область применения (библиотечные ресурсы, базы данных издательских систем).
Данная модель реализована в пространстве информационных ресурсов World Wide Web (WWW) и является на сегодняшний день преобладающей, т.к. позволяет структурировать практически любую информацию Internet.
Недостаток – сложность управления такой структурой.
Поиском в Internet занимаются специальные службы,
которые называются поисковыми сервисами (серверами).
Поисковые сервисы могут быть платными и бесплатными.
К бесплатным сервисам относятся поиск информации на
WWW-серверах, в FTP-архивах, USENET-конференциях и
общих адресных книгах eMail.
Услуги поиска в специализированных (коммерческих) базах
данных, адресных серверах и справочных службах, как правило – платные.
Достаточно определенное имя означает, что объект поиска заранее известен: есть уверенность в его существовании и предлагаемое для поиска имя вполне уникально.
Недостаточно определенное имя означает неполное, неоднозначное или в чем-то неверное имя, не позволяющее найти объект средствами White-поиска.
Неопределенное имя означает либо просто отсутствие какого-либо конкретного имени, либо такое его значение,которое позволяет лишь отнести обозначаемый им объект ккакому-то классу (например: найти какой-нибудь банк в Киеве).
Функции поисковых сервисов в Internet выполняют
поисковые системы и поисковые каталоги.
Поисковая система – это сервер или группа серверов,
на которых функционирует поисковая машина и средства
актуализации информации о Сетевых ресурсах.
Поисковый каталог – это, организованый в виде иерархической структуры, список ссылок на Сетевые ресурсы.
2. Классификация поисковых сервисов WWW..
Региональные поисковые системы и каталоги содержат
ссылки на информационные ресурсы по адресному
пространству Internet, ограниченому некоторым регионом (Россия, Украина).
Search.aol.com - поисковая система компании AOL
Yandex.ru - поисковая система Рунет
www.meta-ukraine.com - поисковая система Уанет
Локальные поисковые системы и каталоги
содержат ссылки на информационные ресурсы внутри
конкретной организации и ее локальной сети.
rada.gov.ua – поиск законодательных актов на
серверах ВР Украины
195.230.142.4/library – поиск книг в каталоге
библиотеки КНТЭУ
Поисковая машина - служит для трансляции запроса клиента в формальный запрос системы, поиска ссылок и выдачи результатов этого поиска пользователю.
Индекс базы данных - основной массив данных ПС, служит для поиска адреса информационного ресурса.
Является системообразующей компонентой ПС
Робот-индексировщик - специальная программа для сканирования Интернет и поддержания базы данных индекса в актуальном состоянии.
Размер словаря ПС – это количество слов, словосочетаний
и фраз, которым поcтавлен в соответствие хотя-бы один
адрес из индекса базы данных ПС.
Период обновления индекса БД – это среднее время между
двумя посещениями роботом индексировщиком одного и
того же ресурса в Сети.
или
– это время, через которое роботы-индексировщики
обнаружат и запишут в БД новый ресурс в Сети.
Обучаемость – это свойство роботов-индексировшиков
проводить селективный отбор информационных ресурсов
(устранение повторов, игнорирование “грязных” ресурсов
и т.д)
Создатели Google:
Лоуренс Пейдж
Сергей Брин
Начали работу над системой в Стенфордском университете в 1995 г и в 1996 г. Запустили прототип Back Rub.
Коммерческая версия Google была запущена в эксплуатацию в 2000г.
Вычисление PageRank
Рассмотрим некую страницу А. Имеется n страниц (T1, Т2, …, Tn), цитирующих данный документ. Фактор затухания d (damping factor) — это вероятность того, что пользователь, просматривая страницу, перейдет на следующую страницу не по ссылке, а набрав случайный URL. d может колебаться в пределах от 0 до 1, но обычно устанавливается в значение 0,85. Тогда вероятность перехода по ссылке будет равна 1-d. C(A) — общее число ссылок со страницы А на другие документы.
Тогда индекс PageRank PR(A) для страницы А равен:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Проект Google получает доходы из двух источников:
Реклама.
Доходы от лицензирования технологии Google.
www.google.com/ – главный URL
www.google.сom.ua/ – локализация
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть