Поиск информации в интернете презентация

Содержание

1. Поиск информации в интернете
2. Количество информации в мире растет: Калифорнийский университет
3. 1 терабайт – 1024 Гб Для сравнения:
4. Объем информации в интернете увеличивается в геометрической
5. На июль 2006 года: По данным аналитической
6. Кривая роста числа сайтов Октябрь 1995
7. Русскоязычный интернет Аналитики Nigma.Ru в мае 2005
8. Русскоязычный интернет В поисковой системе Яндекс на
9. Возникает проблема: Переизбыток информации В США получил
10. Переизбыток информации По данным экспертов Reuters, 79%
11. Что необходимо для эффективного поиска информации? Представление
12. Структура информационного пространства интернета
13. Благодаря кому в интернете возникает информация? Как
14. Источники информации Мы рассмотрим основные источники информации
15. Источники информации #1 Компании и организации (юридические
16. Источники информации #2 Обычные граждане (физические лица)
17. Источники информации #2 Они же выступают как
18. Источники информации #3 Журналисты и редакторы сетевых
19. Источники информации #4 Сотрудники информационных и консалтинговых
20. Схема информационных потоков Сайты компаний Личные
21. Схема информационных потоков
22. Парадокс интернета: Полезной информации становится все больше, а найти что-то необходимое – все сложнее.
23. Модель web-пространства
24. Для эффективного поиска в интернете необходимо учитывать
25. Модель web-пространства Впервые создана в 1999 году
26. Модель web-пространства Проследив с помощью поискового механизма
27. Модель web-пространства
28. Центральное ядро – 28% web-страниц Компоненты сильной
29. «Отправные» web-страницы - 22% Web-страницы, которые содержат
30. «Конечные» web-страницы – 22% К этим web-страницам
31. «Отростки» - 22% Web-страницы, полностью изолированные от
32. «Острова» - около 10% Web-страницы, которые вообще
33. Пропорции модели Ученые обнаружили, что пропорции четырех
34. Интернет – это фрактал Топология и характеристики
35. Связь между ресурсами интернет Эксперимент выявил сложную
36. Связь между web-страницами В случае, если между
37. Связь между web-страницами Если путь между web-страницами
38. Скрытый Web
39. «Острова» - скрытый Web Недостаток модели Bow
40. Скрытый Web В 1994 web-ресурсы, недоступные поисковым
41. Скрытый Web Какие это web-ресурсы? Динамически генерируемые
42. Платные сайты Сайты, защищенные паролем и берущие
43. Крупнейшие базы данных Одними из самых больших
44. Dialog www.dialog.com Создана в
45. LexisNexis www.lexisnexis.com Основана в
46. LexisNexis www.lexisnexis.com Служба охватывает
47. Пример рускоязычной базы данных Сайт компании «Кодекс»
48. Как искать в «скрытом» Web’e? Крупнейший каталог
49. Как искать в «скрытом» Web’e? Крупнейшая поисковая
50. Таким образом, Мы рассмотрели представления исследователей о
51. Источники информации Дудихин В.В., Дудихина О.В. Конкурентная

Главная
Разное
Поиск информации в интернете

Слайд 1Поиск информации в интернете
Занятие 1. Вводное

Слайд 2Количество информации в мире растет:
Калифорнийский университет подсчитал , что в 2002

году в мире произведено
5 000 000 терабайт информации

Слайд 31 терабайт – 1024 Гб
Для сравнения: объем информации библиотеки Конгресса США,

где хранится 19 млн. книг и 56 млн. рукописей –
около 10 терабайт информации
или
в 500 тысяч раз меньше!

Слайд 4Объем информации в интернете увеличивается в геометрической прогрессии:
1998 г. – количество

web-сайтов – около 1 миллиона
2004 г. - web-сайтов – 50 миллионов,
web-страниц – 10 миллиардов

(по данным аналитической компании Cyveillance)

Слайд 5На июль 2006 года:
По данным аналитической службы Netcraft, в интернете зарегистрировано

88 166 395 сайтов
В течение 2006 года количество сайтов увеличивалось примерно на
2 миллиона в месяц!

Слайд 6Кривая роста числа сайтов
Октябрь 1995 г. – июль 2006 г.

http://news.netcraft.com

Слайд 7Русскоязычный интернет
Аналитики Nigma.Ru в мае 2005 года оценили объем русскоязычного интернета

в 1,052 млрд. web-страниц
А с учетом, т.н. «скрытого Web’a» - не более 1,2-1,3 млрд. страниц

В то же время специалисты Rambler оценивают объем Рунета в 1,4 млрд. web-страниц

Слайд 8Русскоязычный интернет
В поисковой системе Яндекс на июль 2006 года проиндексировано:
сайтов: 2

832 533,
web-страниц: 1 058 914 756,
объем проиндексированной информации: 24 778 ГБ.

Слайд 9Возникает проблема:
Переизбыток информации
В США получил распространение «синдром информационной усталости».
По данным исследования

Reuters 38% менеджеров «тратят много времени на поиск нужной информации».

Слайд 10Переизбыток информации
По данным экспертов Reuters,
79% журналистов обращаются к интернету в поисках

новостей
и лишь 20% находят информацию, которая им необходима!

Слайд 11Что необходимо для эффективного поиска информации?
Представление о структуре интернета.
Представление о способах

и методах поиска информации в интернете.
Умение сформулировать запрос и выбрать ответ из результатов поиска.

Слайд 12Структура информационного пространства интернета

Слайд 13Благодаря кому в интернете возникает информация?
Как искать, учитывая эти знания?
Как она

располагается в интернете?

Слайд 14Источники информации
Мы рассмотрим основные источники информации интернета
Особое внимание уделим трем критериям:
тематика,
оперативность,
достоверность.

Слайд 15Источники информации
#1 Компании и организации (юридические лица), создающие собственные сайты в

интернете.
Тематика, достоверность и оперативность очень широко варьируются

Слайд 16Источники информации
#2 Обычные граждане (физические лица)
Чаще всего сайты посвящены увлечению владельца
Достоверность

и оперативность – на совести автора

Слайд 17Источники информации
#2 Они же выступают как участники форумов, конференций, блогов
Тематика –

самая разнообразная
Оперативность – достаточно высокая
Достоверность – на совести авторов

Слайд 18Источники информации
#3 Журналисты и редакторы сетевых СМИ и информагентств
Тематика – самая

разнообразная
Оперативность – очень высокая
Объективность информации зависит от редакции сетевого СМИ (так же, как и у печатных СМИ)

Слайд 19Источники информации
#4 Сотрудники информационных и консалтинговых компаний, создающие специализированные базы данных
Тематика

– самая разнообразная
Оперативность и объективность – очень высокая

Слайд 20Схема информационных потоков
Сайты компаний
Личные сайты
Форумы, блоги
Информ. агентства
Сетевые СМИ
Компании и

организации

Обычные пользователи

Журналисты
Редакторы
Учредители

Базы данных

Информационные
компании

Слайд 21Схема информационных потоков

Сайты компаний
Личные сайты
Форумы, блоги
Информ. агентства
Сетевые СМИ
Поисковые
системы
Специализированные
базы

данных

Информационные
компании

Слайд 22Парадокс интернета:
Полезной информации становится все больше, а найти что-то необходимое –

все сложнее.

Слайд 23Модель web-пространства

Слайд 24Для эффективного поиска в интернете
необходимо учитывать архитектуру всего информационного пространства интернета.
Гиперссылки

могут стать основой для построения модели web-пространства.

Слайд 25Модель web-пространства
Впервые создана в 1999 году в Институте поиска и анализа

текстов (США).
Модель опровергла представления об интернете как о едином густом пространстве.

Слайд 26Модель web-пространства
Проследив с помощью поискового механизма 200 млн. web-страниц и несколько

миллиардов ссылок ученые пришли к выводу о неоднородной структуре интернета и создали топологическую модель, близкую к модели Bow Tie (галстук-бабочка)

Слайд 27

Модель web-пространства
«Отправные»
web-страницы
IN
22%
«Конечные»
web-страницы
OUT
22%
Центральное ядро
SCC
28% web-страниц

«Отростки»
«Перешейки»

«Острова»

Слайд 28Центральное ядро – 28% web-страниц
Компоненты сильной связности (SCC).
Сюда относятся web-страницы, связанные

так тесно, что, следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

Слайд 29«Отправные» web-страницы - 22%
Web-страницы, которые содержат гиперссылки, ведущие в конечном счете

к ядру.
Но! Из ядра по гиперссылкам на них попасть нельзя!

Слайд 30«Конечные» web-страницы – 22%
К этим web-страницам можно прийти по ссылкам из

ядра.
Но! Вернуться по гиперссылкам обратно в ядро с этих страниц невозможно!

Слайд 31«Отростки» - 22%
Web-страницы, полностью изолированные от центрального ядра.
Это либо «отростки», связанные

в одностороннем порядке со страницами другой категории.
Либо «перешейки», соединяющие web-страницы, не входящие в ядро.

Слайд 32«Острова» - около 10%
Web-страницы, которые вообще не пересекаются с остальными ресурсами

интернета.
Единственный способ обнаружить эти страницы – знать их адрес.
Никакие поисковые машины не могут найти «острова», если на них не ведут гиперссылки.

Слайд 33Пропорции модели
Ученые обнаружили, что пропорции четырех основных категорий web-страниц в течение

времени остаются неизменными, несмотря на значительное увеличение общего объема web-ресурсов.

Слайд 34Интернет – это фрактал
Топология и характеристики модели Bow Tie оказались примерно

одинаковыми и для различных подмножеств web-пространства!
Это позволило сделать вывод о том, что интернет пространство обладает свойствами фрактала.

Слайд 35Связь между ресурсами интернет
Эксперимент выявил сложную картину:
значительная часть web-пространства отделена от

других крупных частей.
С большой вероятностью случайно выбранные web-страницы окажутся никак не связанными.

Слайд 36Связь между web-страницами
В случае, если между страницами существует односторонний путь, то

среднее количество щелчков для перехода между ними - 16

Слайд 37Связь между web-страницами
Если путь между web-страницами двусторонний, то количество щелчков сократится

до 7

Слайд 38Скрытый Web

Слайд 39«Острова» - скрытый Web
Недостаток модели Bow Tie – недооценка размеров «островов»,

то есть web-страниц, «не видимых» поисковыми системами.
По оценке компании BrightPlanet в 2000 году число скрытых ресурсов в интернете в сотни раз больше, чем доступных через поисковые системы!

Слайд 40Скрытый Web
В 1994 web-ресурсы, недоступные поисковым системам, получили название deep Web

или «скрытый Web».
Другое название этих ресурсов – invisible («невидимый») Web

Слайд 41Скрытый Web
Какие это web-ресурсы?
Динамически генерируемые страницы
Информация из баз данных
Файлы нераспознаваемых форматов
Системы

интерактивного взаимодействия с пользователем
Платные сайты, защищенные паролем
и др.

Слайд 42Платные сайты
Сайты, защищенные паролем и берущие плату за доступ, по некоторым

оценкам, составляют всего 10% скрытого Web’a.
О материалах этих сайтов пользователи ничего не смогут узнать с помощью поисковых систем.

Слайд 43Крупнейшие базы данных
Одними из самых больших известных ресурсов «скрытого» Web’a являются

базы данных служб Dialog и LexisNexis.

Слайд 44Dialog www.dialog.com
Создана в 1965 году.
Dialog содержит 900 баз

данных, доступных 700 тыс. пользователей, которые только за один час прочитывают более 17 млн. документов!
Услугами Dialog пользуются в более чем 100 странах

Слайд 45LexisNexis www.lexisnexis.com
Основана в 1973 году.
Представляет пользователям юридическую, политическую,

коммерческую, новостную и т.п. информацию.
В первую очередь база данных предназначена для юристов.

Слайд 46LexisNexis www.lexisnexis.com
Служба охватывает 35 000 источников информации
4,6 млрд.

документов с глубиной ретроспективы 200 лет.
В базе содержатся досье более чем на 300 млн. человек!
Утверждается, что система накапливает только проверенные документы.

Слайд 47Пример рускоязычной базы данных
Сайт компании «Кодекс» о российском законодательстве
www.kodeks.ru
Тысячи документов будут

доступны только после входа в систему, поисковые машины не могут проиндексировать содержимое сайта

Слайд 48Как искать в «скрытом» Web’e?
Крупнейший каталог скрытых ресурсов – www.completeplanet.com. Он

содержит более 100 тыс. ссылок
Другие известные каталоги –
www.bighub.com
www.invisible-web.net

Слайд 49Как искать в «скрытом» Web’e?
Крупнейшая поисковая система для скрытых ресурсов –

SurfWax
www.surfwax.com
Подавляющее большинство баз данных, доступных в SurfWax относятся к скрытому Web’у.
Особенность: SurfWax – платная система

Слайд 50Таким образом,
Мы рассмотрели представления исследователей о структуре интернета,
проанализировали источники информации интернета,
изучили

модель web-пространства,
описали сущность «скрытого» web’a и возможности поиска скрытых ресурсов

Слайд 51Источники информации
Дудихин В.В., Дудихина О.В. Конкурентная разведка в Интернет. – М.:

ООО «Изд-во АСТ»: изд-во «НТ Пресс», 2004.
Ландэ Д.В. Поиск знаний в INTERNET. Профессиональная работа.: Пер. с англ. – М.: «Вильямс», 2005.

© И.М. Печищев

Скачать презентацию

Поиск информации в интернете презентация

Содержание

Слайд 1Поиск информации в интернетеЗанятие 1. Вводное

Слайд 2Количество информации в мире растет:Калифорнийский университет подсчитал , что в 2002

Слайд 31 терабайт – 1024 ГбДля сравнения: объем информации библиотеки Конгресса США,

Слайд 4Объем информации в интернете увеличивается в геометрической прогрессии:1998 г. – количество

Слайд 5На июль 2006 года:По данным аналитической службы Netcraft, в интернете зарегистрировано

Слайд 6Кривая роста числа сайтов Октябрь 1995 г. – июль 2006 г.

Слайд 7Русскоязычный интернетАналитики Nigma.Ru в мае 2005 года оценили объем русскоязычного интернета

Слайд 8Русскоязычный интернетВ поисковой системе Яндекс на июль 2006 года проиндексировано:сайтов: 2

Слайд 9Возникает проблема:Переизбыток информацииВ США получил распространение «синдром информационной усталости».По данным исследования

Слайд 10Переизбыток информацииПо данным экспертов Reuters,79% журналистов обращаются к интернету в поисках

Слайд 11Что необходимо для эффективного поиска информации?Представление о структуре интернета.Представление о способах

Слайд 12Структура информационного пространства интернета

Слайд 13Благодаря кому в интернете возникает информация?Как искать, учитывая эти знания?Как она

Слайд 14Источники информацииМы рассмотрим основные источники информации интернетаОсобое внимание уделим трем критериям:тематика,оперативность,достоверность.

Слайд 15Источники информации#1 Компании и организации (юридические лица), создающие собственные сайты в

Слайд 16Источники информации#2 Обычные граждане (физические лица)Чаще всего сайты посвящены увлечению владельцаДостоверность

Слайд 17Источники информации#2 Они же выступают как участники форумов, конференций, блоговТематика –

Слайд 18Источники информации#3 Журналисты и редакторы сетевых СМИ и информагентствТематика – самая

Слайд 19Источники информации#4 Сотрудники информационных и консалтинговых компаний, создающие специализированные базы данныхТематика

Слайд 20Схема информационных потоков Сайты компанийЛичные сайты Форумы, блогиИнформ. агентстваСетевые СМИКомпании и

Слайд 21Схема информационных потоков Сайты компанийЛичные сайты Форумы, блогиИнформ. агентстваСетевые СМИПоисковые системыСпециализированныебазы

Слайд 22Парадокс интернета: Полезной информации становится все больше, а найти что-то необходимое –

Слайд 23Модель web-пространства

Слайд 24Для эффективного поиска в интернетенеобходимо учитывать архитектуру всего информационного пространства интернета.Гиперссылки

Слайд 25Модель web-пространстваВпервые создана в 1999 году в Институте поиска и анализа

Слайд 26Модель web-пространстваПроследив с помощью поискового механизма 200 млн. web-страниц и несколько

Слайд 27Модель web-пространства«Отправные»web-страницыIN22%«Конечные»web-страницыOUT22%Центральное ядроSCC28% web-страниц«Отростки»«Перешейки»«Острова»

Слайд 28Центральное ядро – 28% web-страницКомпоненты сильной связности (SCC).Сюда относятся web-страницы, связанные

Слайд 29«Отправные» web-страницы - 22%Web-страницы, которые содержат гиперссылки, ведущие в конечном счете

Слайд 30«Конечные» web-страницы – 22%К этим web-страницам можно прийти по ссылкам из

Слайд 31«Отростки» - 22%Web-страницы, полностью изолированные от центрального ядра.Это либо «отростки», связанные

Слайд 32«Острова» - около 10%Web-страницы, которые вообще не пересекаются с остальными ресурсами

Слайд 33Пропорции моделиУченые обнаружили, что пропорции четырех основных категорий web-страниц в течение

Слайд 34Интернет – это фракталТопология и характеристики модели Bow Tie оказались примерно

Слайд 35Связь между ресурсами интернетЭксперимент выявил сложную картину:значительная часть web-пространства отделена от

Слайд 36Связь между web-страницамиВ случае, если между страницами существует односторонний путь, то

Слайд 37Связь между web-страницамиЕсли путь между web-страницами двусторонний, то количество щелчков сократится