Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux презентация

Содержание

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day Содержание Введение Oracle Text – краткий обзор Russian Context Optimizer Обзор Возможности Технологии Архитектура Перспективы

Слайд 1Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы

Linux

http://www.RCO.ru 119899, Москва, Ленинские Горы, влад. 1, стр. 75 Г тел: +7 (095) 930-8759/58 E-mail: rco@metric.ru


Слайд 2Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Содержание
Введение
Oracle Text – краткий

обзор
Russian Context Optimizer
Обзор
Возможности
Технологии
Архитектура
Перспективы

Слайд 3Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Текст
90% информации – текст
Web,

E-mail, Файлы,...
MS Office, PDF, HTML, XML,…

Почему бы не использовать при принятии решений?


Слайд 4Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Требования к поиску
Надежность /

масштабируемость / производительность
Обработка и хранение разнородной информации
Мощный поисковый механизм
Средства анализа текста

Какой хотелось бы видеть подсистему поиска?


Слайд 5Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Что предлагает Oracle
Oracle Text
Индексирование,

Поиск
Тематический анализ, Классификация
Много форматов, кодировок, XML
Ultra Search
Гетерогенные хранилища (Tables, Files, Web, IMAP,…)
Сквозной поиск
iFS
Хранение, управление, совместная работа

Слайд 6Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Oracle Text
Полностью интегрирован с

базой данных
Полноценные поисковые возможности
Поддержка более 100 форматов документов – Inso Filters
Продвинутая лингвистика – Stemming, Fuzzy, Soundex, Theme Lexing, Gists, Thesaurus, Classification, Clustering





Слайд 7Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Сложности с русским языком
Поиск

– только без учета словоформ


НО...


Oracle Text – расширяем
Oracle Database – много возможностей


Слайд 8Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Russian Context Optimizer
Назначение продукта
Лингвистическое

обеспечение и оригинальные алгоритмы для полноценной работы с русскоязычными документами в Oracle Text
Версии
Ноябрь 1997 – RCO 1.0
Ноябрь 2002 – RCO 4.0.1

Слайд 9Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Позиционирование


Слайд 10Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Обзор –

I

Аналоги всех возможностей Oracle Text для русского языка
Морфология, тезаурус
Средства актуализации лингвистического обеспечения
Нечеткий поиск, тематический анализ, рефераты, рубрицирование


Слайд 11Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Обзор –

II

Кодировки – все для русского языка + UTF8
С точки зрения разработчика – PL/SQL Package
Платформы – LINUX, а также… WinNT/2000, HP-UX, SUN Solaris, IBM AIX, Compaq Tru64


Слайд 12Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Возможности
Учет словоформ
Учет

опечаток
Учет синонимов
Учет связей между темами
Подсветка

Тематический портрет документа
Семантическая сеть по массиву документов

Ключевые темы
Рефераты
Соответствие рубрикам
Тематическая структура
Изменения тематики потока во времени

ПОИСК

АНАЛИЗ

СИНТЕЗ


Слайд 13Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Поиск
Словоформы
президент=президента=президенту=...
Опечатки
Черномырдин=Чернормырдин= Черномырдным=Чермомырдиным
Синонимы
вор=тать=жулик=жулье=ворюга=воришка=

воровка
Тематически близкие
золото=слиток=ювелирное изделие=...

Слайд 14Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Анализ
Ассоциативная
семантическая

сеть

Слайд 15Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Синтез –

Текст

Москва, 28 ноября /МК-Новости/. В январе –
октябре 1997 года в России было добыто 92,2
тонны золота. Выплавлена 71 тонна золотых
слитков. Как сообщили агентству "МК-Новости" в
Госкомстате РФ, по сравнению с январем –
октябрем 1996 года добыча золота снизилась
на 7,7%, а выплавка слитков - на 2,3%.
Произошли существенные изменения в географии
добычи золота: в Республике Саха - Якутия
она снизилась на 19,7%, на Камчатке – на 21,9%.
Возросла золотодобыча в Красноярском крае –
на 71,8%, на Чукотке - в 2 раза, в Пермской
области – на 62,8%.

Выплавлена 71 тонна золотых слитков. Как
сообщили агентству "МК-Новости" в Госкомстате
РФ, по сравнению с январем - октябрем 1996 года
добыча золота снизилась на 7,7%, а выплавка
слитков - на 2,3%. Произошли существенные
изменения в географии добычи золота: в
Республике Саха - Якутия она снизилась на 19,7%,
на Камчатке – на 21,9%.

ДОБЫЧА ЗОЛОТА, ЗОЛОТО
Как сообщили агентству "МК-Новости" в
Госкомстате РФ, по сравнению с январем –
октябрем 1996 года добыча золота снизилась
на 7,7%, а выплавка слитков - на 2,3%.

ВЫПЛАВКА, ЗОЛОТОЙ СЛИТОК
Выплавлена 71 тонна золотых
слитков.

Не обязательно читать весь документ


Слайд 16Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Синтез –

Рубрицирование

Легко понять структуру и сузить область поиска


Слайд 17Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Синтез –

Динамика

Легко понять изменения и сузить область поиска


Слайд 18Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Технологии
Морфология
Тезаурус
Нечеткий
поиск
Тематический
анализ
Автоматическое
реферирование
Классификация
Кластерный
анализ
Лингвистическое
обеспечение
Базовые
алгоритмы
Прикладные
алгоритмы


Слайд 19Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Лингвистическое обеспечение
Морфологический

словарь
Словарная морфология - 110 000 слов
Бессловарная морфология
Тезаурус
Общий объем – 75 000 единиц
Cинонимы - 17 000 рядов
Гипонимы (общее – частное) – 22 000 рядов
Общеупотребимая лексика – 10 000 слов

Слайд 20Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Базовые алгоритмы
Нечеткий

поиск
Fuzzy и Soundex для русского языка
Расширение только словами из индекса
Можно регулировать степень подобия
Тематический анализ
В основе ассоциативная семантическая сеть
Можно настраивать


Слайд 21Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Прикладные алгоритмы
Рефераты
Общий

(gist)
По теме (point-of-view gist)
Классификация
Обучение
Настройка перечня тем и весов вручную
Построение рубрикаторов
Построение «на лету»
3 стратегии

Слайд 22Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Архитектура
Oracle Database
Oracle

Text

Oracle Text
Indexes & Settings

RCO
Indexes & Settings

RCO Filter

Inso Filters

RCO package

User PL/SQL
Application

OCI

Queue

RCO Listener

Shared
Memory





Слайд 23Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Направления развития
Более

тесная интеграция с Oracle
9iR2, USER_LEXER,…
Внедрение новых технологий
Синтактико-семантический анализ и синтез
Движение по направлению к ИАС
Категории объектов и связей
Открытая семантическая сеть

Слайд 24Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
RCO – Лицензирование
Standard vs

Enterprise Edition
RCO Ling: пакет актуализации лингвистического обеспечения
Единица лицензирования
Named User
Processor
Количество лицензий
Oracle

Слайд 25Москва, 11 февраля 2003 г.
Конференция Oracle Technology Day
Гарант-Парк-Интернет
rco@metric.ru
http://www.rco.ru
http://demo.rco.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика