Автоматическое наполнение информационных систем библиограическими сведениями о научных публикациях презентация

Содержание

ПОСТАВЛЕННЫЕ ЗАДАЧИ Разработка и реализация методов и средств автоматизации пополнения контента портала знаний, включая создание: модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами модуля добавления/обновления данных портала

Слайд 1 АВТОМАТИЧЕСКОЕ НАПОЛНЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ БИБЛИОГРАИЧЕСКИМИ СВЕДЕНИЯМИ О НАУЧНЫХ ПУБЛИКАЦИЯХ
О.О.Дяченко
Новосибирский государственный университет


Новосибирск, Россия

Ю.А.Загорулько
Институт систем информатики
имени А.П. Ершова СО РАН
Новосибирск, Россия

RCDL –2011, Воронеж. 19-22 октября


Слайд 2ПОСТАВЛЕННЫЕ ЗАДАЧИ
Разработка и реализация методов и средств автоматизации пополнения контента портала

знаний, включая создание:
модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами
модуля добавления/обновления данных портала
Интеграция разработанных средств в портал знаний по компьютерной лингвистике.

Слайд 3ПОДХОДЫ К СОЗДАНИЮ ФОРМАЛЬНЫХ ОПИСАНИЙ ПУБЛИКАЦИЙ

ResearchIndex (SiteSeer, NEC)
Модель БД цитирования (Д.Сонг)
Reference

managers
BiblioScape 8
I, Librarian
Mendeley Desktop



Слайд 4ТЕРМИНОЛОГИЯ
Значимая часть текста - часть текста, о которой с высоким уровнем

уверенности известно, что она содержит необходимую для описания текста информацию.
Поле - компонент цитаты или некоторого значимого отрывка текста, представленный в тексте или цитате своим значением, образуя пару < атрибут – значение >.
Пример: «автор», «заголовок» и др.
Подполе - составляющая часть сложного поля.
Пример: поле «страницы» со своим значением «С. 251-256»
подполе «признак поля» >>> «С.»,
«начальная страница» >>> «251»,
«конечная страница» >>> «256».
Индикатор (или маркер) - слово или словосочетание, которые характерны для значений или признаков некоторого поля и позволяют однозначно восстановить пару «поле – значение».
Пример: «http://» является маркером для URL в тексте.


Слайд 5ФОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ

Статья
Описание
Цитаты

Описание
Описание
Описание
Описание


Слайд 6ФОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ


Основные поля:
Автор, Название, Название журнала,
Год, Город, Название конференции, Том,

Выпуск, Часть, Страницы, Издательство, ISBN, URL и другие.

Описание

Поле-значение

Поле-значение

Поле-значение

Поле-значение

Поле-значение

Список Авторов


Слайд 7ПОДХОД К АВТОМАТИЗАЦИИ ОБРАБОТКИ ТЕКСТА
Генерация формального описания:
Определение основной информации о статье
выделение

значимой части текста («шапки»);
определение автора, названия и др.
Разбор списка цитируемой литературы.
выделение списка цитируемой литературы;
разбор списка на отдельные элементы (цитаты);
синтаксический разбор цитаты.

Слайд 8СИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (1)
Синтаксическим разбором цитаты мы будем понимать определение полей,

входящих в нее, и нахождение их значений.
Синтаксический разбор осуществляется путем сопоставления цитаты различным шаблонам:
<шаблон> ::= {<блок-поле>|<симв.блок>}+
Символьный блок – набор литер, которые обязательны для присутствия в цитате в указанном в шаблоне порядке.
Пример: «//», - присутствует описаниях журнальных статей.
Блок-поле – блок, соответствующий некоторому полю.
Пример: <Автор>

Каждому шаблону присвоен свой вес, обозначающий его авторитетность.


Слайд 9СИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (2)
Этапы:
нормализация цитаты;
поиск полей цитаты среди цитат, имеющихся в

библиографической базе;
применение шаблонов.

Нормализация цитаты - это устранение из цитаты незначимых символов, приведение ее к виду, удобному для сопоставления с шаблонами. Включает удаление повторяющихся пробелов, некоторых комбинаций символов и др.


Слайд 10ТЕСТОВЫЕ ДАННЫЕ (НА ОСНОВЕ 50 СТАТЕЙ)


Слайд 11ПРОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА


Слайд 12ПРОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА
Полные и неполные написания
Опыт теории лингвистических моделей «Смысл

- Текст»
Опыт теории лингвистических моделей
Ошибки и различные написания
Опыт теории лингвистических моделей «Смысл - Текст»
ОПЫТ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ



Слайд 13МЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА
Добавить статью
Есть с таким же названием
Есть общая ссылка
Уже

есть в базе.
Добавить новые данные.

Добавить данные как новую статью

Запомнить ID

Добавить авторов

Добавить связи с авторами

Добавить ссылки

Добавить связи цитирования






Слайд 14МЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА
Добавить автора
Есть с с такой же фамилией и

именем

Есть совпадающий email?

То же место работы?

Тот же город?

Новый

Найден

Найден










Слайд 15ПАРАМЕТРЫ МЕТОДА
Строки сравниваются на основе расстояния Левенштейна — минимальное количество операций

вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.
Процент расстояния Левенштейна от минимальной длины сравниваемых строк









Слайд 16ПАРАМЕТРЫ МЕТОДА
Строки считаются совпадающими, если расстояние меньше заданного порогового значения
Варьируя пороговые

значения, можно менять качество сравнения объектов

Слайд 17КАЧЕСТВО СРАВНЕНИЯ ПРИ РАЗЛИЧНЫХ ПАРАМЕТРАХ
2000 выделенных названий, 71 уже присутствовали в

БД






Среди добавляемых 1378 авторов, только 105 персон уже оказались существующими в БД


Слайд 18РЕЗУЛЬТАТЫ РАБОТЫ
Разработаны методы и средства создания формальных описаний научных статей и

БД цитирования.
Реализована возможность экспортирования полученных формальных описаний в формат XML.
Разработаны методы и средства автоматизации пополнения контента портала знаний данными о публикациях по тематике портала знаний.
Проведены тестирование разработанных методов на реальных данных (труды конф. Диалог 2005-2010).


Слайд 19ЗАКЛЮЧЕНИЕ И ПЕРСПЕКТИВЫ
Добавить возможность конвертации имеющихся в базе цитат в другие

форматы, например, BibTex.
Реализовать поддержку различных форматов документов (*.pdf, *.doc, *.html).
Добавить функциональность Reference Manager’ов:
Конвертация полученных цитат в форматы, необходимые для различных видов публикаций (например, стандарты оформления ссылок в журналах).
Визуализация связей между цитатами и авторами.




Слайд 20БЛАГОДАРНОСТИ
Работа выполняется при финансовой поддержке РФФИ
(проект № 09-07-00400).


Слайд 21СПАСИБО ЗА ВНИМАНИЕ!


Слайд 22ПРЕДСТАВЛЕНИЕ ФОРМАЛЬНОГО ОПИСАНИЯ


Слайд 23РАЗБОР С ПОМОЩЬЮ ШАБЛОНОВ
определение типа цитаты;
Журнальная статья, книга, труды конференций, электронный

источник или серийные издания.
применение всех полных шаблонов, подходящих типу цитаты;
Выбор среди подошедших наилучшего по весу, далее по количеству блоков-полей
«жадное» отделение данных при помощи частичных шаблонов.

Слайд 241. ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ О СТАТЬЕ
Отделение «шапки»:
наличие индикаторов начала глав;
«Введение», «Introduction» и

др.
наличие маркеров ключевых слов;
«Ключевые слова», «Keywords»
наличие маркеров аннотации;
«Статья содержит», «в работе рассматривается» и др.
определение начала первой главы «по большому количеству слов»
положение авторов.
Разбор происходит с использованием тех же маркеров и шаблонов.



Слайд 252. ОПРЕДЕЛЕНИЕ И РАЗДЕЛЕНИЕ СЦЛ
Отделение списка литературы:
по наличию маркеров;
по «большому количеству»

авторов;
по нумерации;
по «пустым» строкам;
Разделение списка литературы:
по нумерации;
по специальным маркерам («Guaridano 2003 - »);
по переводу строки;

Слайд 26ПРИМЕР
1: //:
2: //
3: //

Загорулько Ю.А., Боровикова О.И. Технология построения

онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием “Знания-Онтологии-Теории” (ЗОНТ-07). Новосибирск, 2007. Т.1, С.191-200.


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика