Поиск информации в Интернет презентация

Содержание

Слайд 1Поиск информации в Интернет


Слайд 2Методы поиска информации в Интернет
Методы поиска:
Составление имени ресурса
Использование списков ссылок
Использование поисковых

каталогов
Использование поисковых систем

Слайд 3Основные информационные ресурсы Интернет
гипертекстовая информационная система World Wide Web (WWW);
каталоги

ресурсов - глобальные, локальные, специализированные (в среде WWW);
поисковые машины, или автоматические индексы - глобальные, локальные,
глобальная система телеконференций Usenet, региональные и специализированные телеконференции;
электронная почта и почтовые роботы;
списки рассылки;
он-лайновые средства коммуникации пользователей;
системы поиска людей и организаций;
базы данных Hytelnet;
система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата;
базы данных Gopher и поисковая система Veronica;
баннерные системы (в среде WWW);
активные информационные каналы (в среде WWW).

Слайд 4Жизненный цикл информационного ресурса


Слайд 5Информационно-поисковые системы


Слайд 6Два вида ИПС
Поиск информации – это процесс отыскания в массиве

документов, соответствующих сформированному запросу.
ИПС представляет собой функциональную систему, предназначенную для хранения и поиска информации.
Системы часто разделяют на фактографические и документальные.
Фактографические системы в ответ на конкретные запросы о данных выдают конкретные ответы, содержащие по мере возможности только действительно запрашиваемые данные, факты. Что же касается документальных систем, то они в ответ на запросы выдают подборки документов.
Документальная информационно-поисковая система не информирует пользователя о предмете запроса в том смысле, что она не изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.


Слайд 7Информационно-поисковые системы и системы поиска данных (базы данных)
ИПС следует отличать от

системы поиска данных (традиционно их называют базами данных), которые осуществляют поиск и выдачу пользователю фактических значений данных в буквенной либо цифровой форме.
Очевидно, что поиск данных есть частный случай поиска документов, при котором "документами" являются отдельные значения показателей либо текстовые фрагменты.
В системах поиска данных информация представляется в виде таблиц.

Слайд 8Информационно-поисковая система
Основные элементы ИПС:
массив документов (текстов, записей), выступающих в качестве объекта

поиска;
информационно-поисковый язык (ИПЯ) - искусственный язык, предназначенный для описания содержания и формы документов и (или) запросов для осуществления поиска;
правила индексирования (алгоритмы, методы), следуя которым производится описание средствами ИПЯ документов и запросов (перевод их с естественного языка на информационно-поисковый). В результате индексирования документа получается поисковый образ документа (ПОД), а при индексировании запроса - поисковые предписания (ПП);
правила (алгоритмы, методы) поиска документов, соответствующих запросу, которые задаются в виде критерия соответствия (критерия выдачи).

Слайд 9Семантические средства ИПС
ИПЯ
Методы индексирования
Методы поиска
Обработка документа семантическими средствами


где Li - запрос

на естественном языке;
Si - представление запроса на ИПЯ (поисковое предписание);
Ld - текст документа на естественном языке;
Sd - представление документа на ИПЯ (поисковый образ документа;
→ - операция индексирования;
← → - операция сопоставления ПОД и ПП в соответствии с заданным критерием выдачи.



Слайд 10Поисковый образ документа (вектор документа)
Каждый документ, хранящийся в ИПС, имеет адрес

(поисковый номер), позволяющий идентифицировать его в процессе поиска. Смысловое содержание документа описывается перечнем слов (индексов) ИПЯ, образующих его поисковый образ. Количество слов ИПЯ в ПОД может быть любым. ПОДi некоторого документа (i) представляет собой множество терминов ИПЯ, часто называемый вектором документа.

где Si - поисковый образ i-го документа; t1, t2, t3, ...,tm - термины ИПЯ.
Множество поисковых образов документов образуют матрицу массива документов, состоящего из векторов Si поисковых образов документов (ПОД).

Слайд 11Поисковый массив (матрица документов)


Слайд 12Запрос к ИПС (поисковое предписание)
Запрос, направляемый в поисковую систему, обрабатывается таким же

образом, как и поступающий в нее документ. Он анализируется по своему предметному содержанию и описывается в терминах имеющегося словаря (терминов).


где Qi - вектор запроса (поисковое предписание).
В процессе поиска, поисковое предписание (ПП), сравнивается с поисковыми образами документов (ПОД).

Слайд 13Семантические показатели эффективности ИПС
Релевантность - объективно существующее смысловое соответствие между содержанием

документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса



полнота выдачи (ПВ) =

точность выдачи (ТВ) =

потери информации (ПИ) =

информационный шум (ИШ) =

Слайд 14Основные этапы информационного поиска
На основе анализа текста документа создается список терминов,

характерных для этого документа, в котором образуется словарь документа. Как правило, термины используются в качестве указателей (индексов) документа.
Список терминов документа образует поисковый образ документа.
Совокупность поисковых образов документов образует поисковый массив (индекс).
После создания индекса к нему обращаются с помощью запросов.
Запрос переводится на язык индексирования – поисковое предписание.
Выполняется сравнение поисковых образов с поисковым предписанием.
Результаты сравнения представляют собой список документов, отсортированных по релевантности.


Слайд 15Обобщенная блок-схема информационно-поисковой системы


Слайд 16Индексирование документов
Под индексированием в теории информационно-поисковых систем понимается процесс присвоения

документу набора ключевых слов или кодов, служащих указателем (индексом) содержания документа и используемых для его поиска.
На ранних стадиях развития ИПС индексирование преимущественно выполнялось вручную высококвалифицированным специалистом (индексатором), который должен был обладать широким набором знаний в различных областях. Качество поискового образа при индексировании вручную в значительной мере предопределяется субъективным фактором. Смысловой анализ - это творческая работа, которая заключается в выделении понятий и отборе из текста документа терминов, достаточно полно отражающих содержание этого документа и заслуживающих включения в поисковый образ.

Слайд 17Классификация ИПС по составу словаря
Со свободным словарем, т.е. словарем, состав

которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста.
С контролируемым словарем. Состав терминов, используемых для индексирования, заранее определяется либо вручную, либо автоматически на основе анализа некоторого множества документов, принадлежащих той предметной области, для которой строится ИПС.

При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Слайд 18Методы автоматического индексирования
В автоматизированных ИПС со свободным словарем, т.е. словарем, состав

которого жестко не фиксируется, в словарь может быть занесено любое слово за исключением слов, несущественных для передачи основного содержания анализируемого текста.
При автоматизированном составлении словаря основной задачей является определение информативности слов в тексте. Для этих целей используются статистические методы анализа.

Слайд 19Статистический анализ текста Первый закон Зипфа
Вероятность вхождения слова в документ определяется отношением

частоты вхождения слова в документ к общему числу слов в тексте документа:



где - частота вхождения слова k в документ i, N - число слов в документов.
Зипфом было обнаружено, что произведение вероятности обнаружения слова в тексте на ранг частоты является величиной постоянной.


где R - ранг частоты вхождения слова в документ.
Если преобразовать эту формулу, то получим
 

Значение константы K различно для разных языков. Так, например, для английского языка K=0.1, для русского ≈ 0.06÷0.07. Но для языков одной языковой группы значение K неизменно.

Слайд 20Статистический анализ текста Первый закон Зипфа


Слайд 21Статистический анализ текста Второй закон Зипфа
Если построить график, на котором по оси

Х отложить частоту вхождения слов, а по оси Y - количество слов с данной частотой вхождения , то получившееся кривая будет сохранять свой характер для всех без изменения текстов, созданных человеком, независимо от языка, на котором написан текст.

Слайд 22Автоматическое индексирование
Порядок операций, выполняемых при автоматическом индексировании включает в себя:
выбор

слова, встречающегося в документе в соответствии с некоторыми правилами;
статистическую обработку выбранных слов в соответствии с используемыми статистическими методами с целью отбора из всего множества выбранных слов набора терминов;

Слайд 23Анализ лексики
Выделяются отдельные слова, входящие в тексты документов или тексты запросов.
Некоторые

слова, например функциональные, встретившиеся в стоп-словаре, исключаются из словников документов и запросов.
Для преобразования словника в список основ слов используется одна из двух процедур отсечения суффиксов: метод словоформ, заключающийся в отсечении только окончаний, и обычный процесс выделения основ слов, состоящий в отсечении всех нормальных суффиксов.
Исходя из частоты встречаемости основ слов в текстах документов или формулировках запросов, основам слов приписываются веса.
Полученные взвешенные векторы основ слов, представляющие документы и запросы, сравниваются между собой, и для каждой пары "документ-запрос" вычисляется коэффициент корреляции, отражающий сходство (близость) между соответствующими векторами.

Слайд 24Определения значимости терминов и назначение весовых коэффициентов
Среди теорий индексирования, учитывающих всю

совокупность документов, наиболее известны три теории:
частотная модель;
модель, учитывающая различительную силу термина;
модель, в основе которой лежит динамическая оценка информативности.

Слайд 25Частотная модель
Наибольший вес получают термины, имеющие высокую частоту появления в некоторых

документах набора.


где - вес термина;
TF - частота появления термина в документах;
IDF - обратная документная частота.





Слайд 26Модель, основанная на различительной силе термина
Наибольший вес получают термины, которые делают

документы максимально непохожими друг на друга.



где – значение различительной силы термина.

Слайд 27Модель динамической оценки информативности
Каждому термину присваивается специальный параметр, называемый информативностью. В

начальный момент для всех терминов значения информативности полагаются равными одной и той же величине, например 1. В ходе работы для изменения начальных значений некоторых терминов динамически применяется функция модификации веса. Так, если данный термин встречается и в запросе и в найденном документе, оцененном как релевантный, его значение информативности медленно повышается вплоть до максимального значения 2. Если же документ оценивается как нерелевантный, значение информативности термина постепенно снижается до минимального, т.е. 0.


iv – информативность термина.

Слайд 28Процедура поиска


Слайд 29Типы запросов
Возможны два основных варианта формулировки запроса к ИПС:
запрос с использованием

специального языка запросов (четкий поиск);
запрос на естественном языке (нечеткий поиск).

Слайд 30Четкий запрос
Состоит из слов или словосочетаний естественного языка, объединенных операциями алгебры

логики, а также специальными операциями, позволяющими задать условия одновременного вхождения слов в один фрагмент текста:
AND, OR, NOT, Near N.

Слайд 31Нечеткий запрос
Запрос на естественном языке:
процесс индексирования документов информацион-но-поисковой системой
рецепт приготовления черепахового

супа


Слайд 32Архитектура информационно-поисковой системы Интернет


Слайд 33Классификация поисковых систем Интернет по масштабам массива документов


Слайд 34Характеристики поисковых систем Интернет
Показатели индексирования


Слайд 35Характеристики поисковых систем Интернет
Особенности поисковых языков


Слайд 36Поисковые системы Интернет
Динамика изменения доли проиндексированных документов (1998/1999 гг.)









Изменение числа заиндекированных

на май 1999 года документов (правый столбец) в
процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый
столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5 – Lycos, 6 – Infoseek, 7 – WebCrawler (по материалам Science magazine и Forrester Research)

Слайд 37Число проиндексированных страниц (декабрь 2001)
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light


Слайд 38Число документов проиндексированных различными поисковыми системами Интернет (сент. 2003)
На диаграмме показано

количество документов (html, doc, pdf, txt и т.п.) проиндексированных наиболее популярными поисковыми системами

Слайд 39Динамика роста числа проиндексированных документов
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light


Слайд 40Динамика роста числа проиндексированных документов в течение 2001 года
GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi,

NL=Northern Light


Слайд 41Каталоги ресурсов.
Каталог – средство организации документов в иерархическую структуру (аналог -

систематический каталог в библиотеке).Каталоги существуют как отдельно ( например, отраслевые), так и в составе поисковых машин.
Каталог позволяет быстро найти сайты определенной тематики за счет деления на категории.
Ведение каталога – либо средствами редакторского коллектива с предварительным аудитом сайтом, либо добровольцами, либо посетителями
Каталог удобен при «погружении» в новую область знаний, деятельности. Каталог – неоценимый помощник при подборе источников информации по новой для журналиста тематике.
Каталог часто совмещен с поисковой системой и наоборот, поисковая система чаще всего содержит и каталог.
Дополнительную ценность ценность каталогу придает наличие в его составе рейтинга ресурсов. Наиболее посещаемые ( = наиболее востребованные ?! ) ресурсы располагаются в начале списка.

Слайд 42Сравнение поисковых каталогов по числу ссылок


Слайд 43Планирование поисковой процедуры
1. Лексический анализ информации
Сформировать максимально широкий набор ключевых слов

(терминов) с учетом профессионального слэнга.
2. Технологический этап
С помощью текстовых запросов из 1-2-х ключевых слов к метапоисковым и крупным ИПС определяется наиболее представительные источники информации


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика