Поиск информации в Интернет презентация

Содержание

1. Поиск информации в Интернет
2. Методы поиска информации в Интернет Методы поиска:
3. Основные информационные ресурсы Интернет гипертекстовая информационная система
4. Жизненный цикл информационного ресурса
5. Информационно-поисковые системы
6. Два вида ИПС Поиск информации –
7. Информационно-поисковые системы и системы поиска данных (базы
8. Информационно-поисковая система Основные элементы ИПС: массив документов
9. Семантические средства ИПС ИПЯ Методы индексирования Методы
10. Поисковый образ документа (вектор документа) Каждый документ,
11. Поисковый массив (матрица документов)
12. Запрос к ИПС (поисковое предписание) Запрос, направляемый
13. Семантические показатели эффективности ИПС Релевантность - объективно
14. Основные этапы информационного поиска На основе анализа
15. Обобщенная блок-схема информационно-поисковой системы
16. Индексирование документов Под индексированием в теории
17. Классификация ИПС по составу словаря Со
18. Методы автоматического индексирования В автоматизированных ИПС со
19. Статистический анализ текста Первый закон Зипфа Вероятность
20. Статистический анализ текста Первый закон Зипфа
21. Статистический анализ текста Второй закон Зипфа Если
22. Автоматическое индексирование Порядок операций, выполняемых при автоматическом
23. Анализ лексики Выделяются отдельные слова, входящие в
24. Определения значимости терминов и назначение
25. Частотная модель Наибольший вес получают термины, имеющие
26. Модель, основанная на различительной силе термина Наибольший
27. Модель динамической оценки информативности Каждому термину присваивается
28. Процедура поиска
29. Типы запросов Возможны два основных варианта формулировки
30. Четкий запрос Состоит из слов или словосочетаний
31. Нечеткий запрос Запрос на естественном языке: процесс
32. Архитектура информационно-поисковой системы Интернет
33. Классификация поисковых систем Интернет по масштабам массива документов
34. Характеристики поисковых систем Интернет Показатели индексирования
35. Характеристики поисковых систем Интернет Особенности поисковых языков
36. Поисковые системы Интернет Динамика изменения доли проиндексированных
37. Число проиндексированных страниц (декабрь 2001) GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light
38. Число документов проиндексированных различными поисковыми системами Интернет
39. Динамика роста числа проиндексированных документов GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light
40. Динамика роста числа проиндексированных документов в течение
41. Каталоги ресурсов. Каталог – средство организации документов
42. Сравнение поисковых каталогов по числу ссылок
43. Планирование поисковой процедуры 1. Лексический анализ информации

Главная
Разное
Поиск информации в Интернет

Слайд 1Поиск информации в Интернет

Слайд 2Методы поиска информации в Интернет
Методы поиска:
Составление имени ресурса
Использование списков ссылок
Использование поисковых

каталогов
Использование поисковых систем

Слайд 3Основные информационные ресурсы Интернет
гипертекстовая информационная система World Wide Web (WWW);
каталоги

ресурсов - глобальные, локальные, специализированные (в среде WWW);
поисковые машины, или автоматические индексы - глобальные, локальные,
глобальная система телеконференций Usenet, региональные и специализированные телеконференции;
электронная почта и почтовые роботы;
списки рассылки;
он-лайновые средства коммуникации пользователей;
системы поиска людей и организаций;
базы данных Hytelnet;
система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата;
базы данных Gopher и поисковая система Veronica;
баннерные системы (в среде WWW);
активные информационные каналы (в среде WWW).

Слайд 4Жизненный цикл информационного ресурса

Слайд 5Информационно-поисковые системы

Слайд 6Два вида ИПС
Поиск информации – это процесс отыскания в массиве

документов, соответствующих сформированному запросу.
ИПС представляет собой функциональную систему, предназначенную для хранения и поиска информации.
Системы часто разделяют на фактографические и документальные.
Фактографические системы в ответ на конкретные запросы о данных выдают конкретные ответы, содержащие по мере возможности только действительно запрашиваемые данные, факты. Что же касается документальных систем, то они в ответ на запросы выдают подборки документов.
Документальная информационно-поисковая система не информирует пользователя о предмете запроса в том смысле, что она не изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.

Слайд 7Информационно-поисковые системы и системы поиска данных (базы данных)
ИПС следует отличать от

системы поиска данных (традиционно их называют базами данных), которые осуществляют поиск и выдачу пользователю фактических значений данных в буквенной либо цифровой форме.
Очевидно, что поиск данных есть частный случай поиска документов, при котором "документами" являются отдельные значения показателей либо текстовые фрагменты.
В системах поиска данных информация представляется в виде таблиц.

Слайд 8Информационно-поисковая система
Основные элементы ИПС:
массив документов (текстов, записей), выступающих в качестве объекта

поиска;
информационно-поисковый язык (ИПЯ) - искусственный язык, предназначенный для описания содержания и формы документов и (или) запросов для осуществления поиска;
правила индексирования (алгоритмы, методы), следуя которым производится описание средствами ИПЯ документов и запросов (перевод их с естественного языка на информационно-поисковый). В результате индексирования документа получается поисковый образ документа (ПОД), а при индексировании запроса - поисковые предписания (ПП);
правила (алгоритмы, методы) поиска документов, соответствующих запросу, которые задаются в виде критерия соответствия (критерия выдачи).

Слайд 9Семантические средства ИПС
ИПЯ
Методы индексирования
Методы поиска
Обработка документа семантическими средствами

где Li - запрос

на естественном языке;
Si - представление запроса на ИПЯ (поисковое предписание);
Ld - текст документа на естественном языке;
Sd - представление документа на ИПЯ (поисковый образ документа;
→ - операция индексирования;
← → - операция сопоставления ПОД и ПП в соответствии с заданным критерием выдачи.

Слайд 10Поисковый образ документа (вектор документа)
Каждый документ, хранящийся в ИПС, имеет адрес

(поисковый номер), позволяющий идентифицировать его в процессе поиска. Смысловое содержание документа описывается перечнем слов (индексов) ИПЯ, образующих его поисковый образ. Количество слов ИПЯ в ПОД может быть любым. ПОДi некоторого документа (i) представляет собой множество терминов ИПЯ, часто называемый вектором документа.

где Si - поисковый образ i-го документа; t1, t2, t3, ...,tm - термины ИПЯ.
Множество поисковых образов документов образуют матрицу массива документов, состоящего из векторов Si поисковых образов документов (ПОД).

Слайд 11Поисковый массив (матрица документов)

Слайд 12Запрос к ИПС (поисковое предписание)
Запрос, направляемый в поисковую систему, обрабатывается таким же

образом, как и поступающий в нее документ. Он анализируется по своему предметному содержанию и описывается в терминах имеющегося словаря (терминов).

где Qi - вектор запроса (поисковое предписание).
В процессе поиска, поисковое предписание (ПП), сравнивается с поисковыми образами документов (ПОД).

Слайд 13Семантические показатели эффективности ИПС
Релевантность - объективно существующее смысловое соответствие между содержанием

документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса

полнота выдачи (ПВ) =

точность выдачи (ТВ) =

потери информации (ПИ) =

информационный шум (ИШ) =

Слайд 14Основные этапы информационного поиска
На основе анализа текста документа создается список терминов,

характерных для этого документа, в котором образуется словарь документа. Как правило, термины используются в качестве указателей (индексов) документа.
Список терминов документа образует поисковый образ документа.
Совокупность поисковых образов документов образует поисковый массив (индекс).
После создания индекса к нему обращаются с помощью запросов.
Запрос переводится на язык индексирования – поисковое предписание.
Выполняется сравнение поисковых образов с поисковым предписанием.
Результаты сравнения представляют собой список документов, отсортированных по релевантности.

Слайд 15Обобщенная блок-схема информационно-поисковой системы

Слайд 16Индексирование документов
Под индексированием в теории информационно-поисковых систем понимается процесс присвоения

документу набора ключевых слов или кодов, служащих указателем (индексом) содержания документа и используемых для его поиска.
На ранних стадиях развития ИПС индексирование преимущественно выполнялось вручную высококвалифицированным специалистом (индексатором), который должен был обладать широким набором знаний в различных областях. Качество поискового образа при индексировании вручную в значительной мере предопределяется субъективным фактором. Смысловой анализ - это творческая работа, которая заключается в выделении понятий и отборе из текста документа терминов, достаточно полно отражающих содержание этого документа и заслуживающих включения в поисковый образ.

Слайд 17Классификация ИПС по составу словаря
Со свободным словарем, т.е. словарем, состав

которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста.
С контролируемым словарем. Состав терминов, используемых для индексирования, заранее определяется либо вручную, либо автоматически на основе анализа некоторого множества документов, принадлежащих той предметной области, для которой строится ИПС.

При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Слайд 18Методы автоматического индексирования
В автоматизированных ИПС со свободным словарем, т.е. словарем, состав

которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста.
При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Слайд 19Статистический анализ текста Первый закон Зипфа
Вероятность вхождения слова в документ определяется отношением

частоты вхождения слова в документ к общему числу слов в тексте документа:

где - частота вхождения слова k в документ i, N - число слов в документов.
Зипфом было обнаружено, что произведение вероятности обнаружения слова в тексте на ранг частоты является величиной постоянной.

где R - ранг частоты вхождения слова в документ.
Если преобразовать эту формулу, то получим

Значение константы K различно для разных языков. Так, например, для английского языка K=0.1, для русского ≈ 0.06÷0.07. Но для языков одной языковой группы значение K неизменно.

Слайд 20Статистический анализ текста Первый закон Зипфа

Слайд 21Статистический анализ текста Второй закон Зипфа
Если построить график, на котором по оси

Х отложить частоту вхождения слов, а по оси Y - количество слов с данной частотой вхождения , то получившееся кривая будет сохранять свой характер для всех без изменения текстов, созданных человеком, независимо от языка, на котором написан текст.

Слайд 22Автоматическое индексирование
Порядок операций, выполняемых при автоматическом индексировании включает в себя:
выбор

слова, встречающегося в документе в соответствии с некоторыми правилами;
статистическую обработку выбранных слов в соответствии с используемыми статистическими методами с целью отбора из всего множества выбранных слов набора терминов;

Слайд 23Анализ лексики
Выделяются отдельные слова, входящие в тексты документов или тексты запросов.
Некоторые

слова, например функциональные, встретившиеся в стоп-словаре, исключаются из словников документов и запросов.
Для преобразования словника в список основ слов используется одна из двух процедур отсечения суффиксов: метод словоформ, заключающийся в отсечении только окончаний, и обычный процесс выделения основ слов, состоящий в отсечении всех нормальных суффиксов.
Исходя из частоты встречаемости основ слов в текстах документов или формулировках запросов, основам слов приписываются веса.
Полученные взвешенные векторы основ слов, представляющие документы и запросы, сравниваются между собой, и для каждой пары "документ-запрос" вычисляется коэффициент корреляции, отражающий сходство (близость) между соответствующими векторами.

Слайд 24Определения значимости терминов и назначение весовых коэффициентов
Среди теорий индексирования, учитывающих всю

совокупность документов, наиболее известны три теории:
частотная модель;
модель, учитывающая различительную силу термина;
модель, в основе которой лежит динамическая оценка информативности.

Слайд 25Частотная модель
Наибольший вес получают термины, имеющие высокую частоту появления в некоторых

документах набора.

где - вес термина;
TF - частота появления термина в документах;
IDF - обратная документная частота.

Слайд 26Модель, основанная на различительной силе термина
Наибольший вес получают термины, которые делают

документы максимально непохожими друг на друга.

где – значение различительной силы термина.

Слайд 27Модель динамической оценки информативности
Каждому термину присваивается специальный параметр, называемый информативностью. В

начальный момент для всех терминов значения информативности полагаются равными одной и той же величине, например 1. В ходе работы для изменения начальных значений некоторых терминов динамически применяется функция модификации веса. Так, если данный термин встречается и в запросе и в найденном документе, оцененном как релевантный, его значение информативности медленно повышается вплоть до максимального значения 2. Если же документ оценивается как нерелевантный, значение информативности термина постепенно снижается до минимального, т.е. 0.

iv – информативность термина.

Слайд 28Процедура поиска

Слайд 29Типы запросов
Возможны два основных варианта формулировки запроса к ИПС:
запрос с использованием

специального языка запросов (четкий поиск);
запрос на естественном языке (нечеткий поиск).

Слайд 30Четкий запрос
Состоит из слов или словосочетаний естественного языка, объединенных операциями алгебры

логики, а также специальными операциями, позволяющими задать условия одновременного вхождения слов в один фрагмент текста:
AND, OR, NOT, Near N.

Слайд 31Нечеткий запрос
Запрос на естественном языке:
процесс индексирования документов информацион-но-поисковой системой
рецепт приготовления черепахового

супа

Слайд 32Архитектура информационно-поисковой системы Интернет

Слайд 33Классификация поисковых систем Интернет по масштабам массива документов

Слайд 34Характеристики поисковых систем Интернет
Показатели индексирования

Слайд 35Характеристики поисковых систем Интернет
Особенности поисковых языков

Слайд 36Поисковые системы Интернет
Динамика изменения доли проиндексированных документов (1998/1999 гг.)

Изменение числа заиндекированных

на май 1999 года документов (правый столбец) в
процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый
столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5 – Lycos, 6 – Infoseek, 7 – WebCrawler (по материалам Science magazine и Forrester Research)

Слайд 37Число проиндексированных страниц (декабрь 2001)
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light

Слайд 38Число документов проиндексированных различными поисковыми системами Интернет (сент. 2003)
На диаграмме показано

количество документов (html, doc, pdf, txt и т.п.) проиндексированных наиболее популярными поисковыми системами

Слайд 39Динамика роста числа проиндексированных документов
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light

Слайд 40Динамика роста числа проиндексированных документов в течение 2001 года
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi,

NL=Northern Light

Слайд 41Каталоги ресурсов.
Каталог – средство организации документов в иерархическую структуру (аналог -

систематический каталог в библиотеке).Каталоги существуют как отдельно ( например, отраслевые), так и в составе поисковых машин.
Каталог позволяет быстро найти сайты определенной тематики за счет деления на категории.
Ведение каталога – либо средствами редакторского коллектива с предварительным аудитом сайтом, либо добровольцами, либо посетителями
Каталог удобен при «погружении» в новую область знаний, деятельности. Каталог – неоценимый помощник при подборе источников информации по новой для журналиста тематике.
Каталог часто совмещен с поисковой системой и наоборот, поисковая система чаще всего содержит и каталог.
Дополнительную ценность ценность каталогу придает наличие в его составе рейтинга ресурсов. Наиболее посещаемые ( = наиболее востребованные ?! ) ресурсы располагаются в начале списка.

Слайд 42Сравнение поисковых каталогов по числу ссылок

Слайд 43Планирование поисковой процедуры
1. Лексический анализ информации
Сформировать максимально широкий набор ключевых слов

(терминов) с учетом профессионального слэнга.
2. Технологический этап
С помощью текстовых запросов из 1-2-х ключевых слов к метапоисковым и крупным ИПС определяется наиболее представительные источники информации

Скачать презентацию

Поиск информации в Интернет презентация

Содержание

Слайд 1Поиск информации в Интернет

Слайд 2Методы поиска информации в Интернет Методы поиска:Составление имени ресурсаИспользование списков ссылокИспользование поисковых

Слайд 3Основные информационные ресурсы Интернетгипертекстовая информационная система World Wide Web (WWW); каталоги

Слайд 4Жизненный цикл информационного ресурса

Слайд 5Информационно-поисковые системы

Слайд 6Два вида ИПС Поиск информации – это процесс отыскания в массиве

Слайд 7Информационно-поисковые системы и системы поиска данных (базы данных)ИПС следует отличать от

Слайд 8Информационно-поисковая системаОсновные элементы ИПС:массив документов (текстов, записей), выступающих в качестве объекта

Слайд 9Семантические средства ИПСИПЯМетоды индексированияМетоды поиска Обработка документа семантическими средствамигде Li - запрос

Слайд 10Поисковый образ документа (вектор документа) Каждый документ, хранящийся в ИПС, имеет адрес

Слайд 11Поисковый массив (матрица документов)

Слайд 12Запрос к ИПС (поисковое предписание) Запрос, направляемый в поисковую систему, обрабатывается таким же

Слайд 13Семантические показатели эффективности ИПС Релевантность - объективно существующее смысловое соответствие между содержанием

Слайд 14Основные этапы информационного поискаНа основе анализа текста документа создается список терминов,

Слайд 15Обобщенная блок-схема информационно-поисковой системы

Слайд 16Индексирование документов Под индексированием в теории информационно-поисковых систем понимается процесс присвоения

Слайд 17Классификация ИПС по составу словаря Со свободным словарем, т.е. словарем, состав

Слайд 18Методы автоматического индексированияВ автоматизированных ИПС со свободным словарем, т.е. словарем, состав

Слайд 19Статистический анализ текста Первый закон ЗипфаВероятность вхождения слова в документ определяется отношением

Слайд 20Статистический анализ текста Первый закон Зипфа

Слайд 21Статистический анализ текста Второй закон ЗипфаЕсли построить график, на котором по оси

Слайд 22Автоматическое индексирование Порядок операций, выполняемых при автоматическом индексировании включает в себя: выбор

Слайд 23Анализ лексикиВыделяются отдельные слова, входящие в тексты документов или тексты запросов.Некоторые

Слайд 24Определения значимости терминов и назначение весовых коэффициентов Среди теорий индексирования, учитывающих всю

Слайд 25Частотная модель Наибольший вес получают термины, имеющие высокую частоту появления в некоторых

Слайд 26Модель, основанная на различительной силе термина Наибольший вес получают термины, которые делают

Слайд 27Модель динамической оценки информативности Каждому термину присваивается специальный параметр, называемый информативностью. В