Слайд 1Языки описания информации
Лекция 1.
Кафедра «ОСУ»
Весенний семестр 2012/2013 уч. года
Введение в дисциплину
Слайд 2Лектор:
Тузовский Анатолий Федорович – профессор каф. ОСУ
Рабочее место к. 316
КЦ ТПУ
Консультация: Четверг с 17-18
Слайд 3Материалы курса
Материалы по курсу будут расположены в локальной сети по адресу
\\sinergy.main.tpu.ru\Info\Дисциплина
- Языки описания информации (магистры)
Слайд 4План лекции
Описание дисциплины
Кратко о языке SGML
Введение в язык XML
Слайд 5Цель преподавания данной дисциплины
На лекциях студенты должны получить знания по основным
языкам описания информации:
XML-технологии;
семантические технологии.
На лабораторных занятиях студенты должны получить навыки
Разработка XML-документов с использованием среды Microsoft Visual Studio.Net.
Разработка XSLT-преобразований с использованием среды Microsoft Visual Studio.Net.
Разработка XQuery-запросов с использованием ххх.
Слайд 6Организация преподавания дисциплины
Слайд 7Распределение учебного времени
Лекции - 16 часов
Лабораторные занятия
- 16 часов
Всего аудиторных занятий - 40 часа
Самостоятельная работа - 40 часа
Общая трудоемкость - 80 часа
Экзамен
Слайд 8Самостоятельная работа
(48 часа)
Изучение материала лекций.
Выполнение примеров сделанных на лекции.
Выполнение доп.
заданий по ЛР
Самостоятельная работа может выполняться:
на своем компьютере
вечером в лабораториях кафедры
Слайд 9Аттестация студентов
100 баллов максимум.
Аттестация – 60 баллов:
Посещение лекций – 10 баллов
Две
контрольные работы – 20 баллов
Лабораторные работы – 30 баллов
Допуск к экзамену:
Не менее 35 баллов
Сдача всех лабораторных работ.
Экзамен – 40 баллов.
Слайд 10Материалы курса
в локальной сети по адресу
\\Exilim\Info\Дисциплина - Языки описания информации
в Интернет
сети
ftp.tpu.ru\Information Description Languages\
(id = osu; psw = stud)
Лекции – презентации
Лабораторные работы
Библиотека
Курсовой проект
Слайд 11Описание информации
Данные – информация - знания
Данные это некоторые описания реального мира,
которые имеют исходный (сырой), простой формат (т.е., это биты и байты, которые хранятся в системе баз данных).
Информация создается по мере того, как простые данные получают некоторый смысл. Это может произойти в результате явного описания смысла некоторого концептуального термина или путем определения его смысла на основе логического вывода.
Слайд 12
Знания создаются (генерируются), когда информация понимается, запоминается и интегрируется в текущее
состояние знаний, которое может приводить к некоторым действиям или преобразованиям состояний знаний.
Так как экспертные системы используют формальные логики для представления данных, то в этом случае, обычные термины являются даже не информацией, а знаниями (специальная модель, обычно называемая базой знаний).
Слайд 13
В общем случае, компьютер не может понимать информацию и поэтому любая
информация для компьютера является просто данными.
Однако, если компьютер способен действовать интеллектуально, так как он может правильно интерпретировать (понимать) конкретные данные, то «простые» данные становятся информацией даже для компьютера.
Слайд 14Общее определение информации (General Definition of Information, GDI)
Общее определение информации: σ
является информацией, понимаемой, как семантическое содержание, если и только если выполняются следующие условия:
σ состоит из n данных, где n >= 1;
эти данные являются правильно-сформированными (well-formed);
правильно-сформированные данные должны иметь некоторый смысл (т.е. должны быть связаны с более широким описанием действительности, быть осмысленными, meaningful).
Слайд 15
Иначе говоря, информация это данные, объединенные в соответствии с некоторым синтаксисом
и имеющие некоторую семантику.
Смысл описываемой информации (составляющих ее данных) формально может быть определен за счет возможности выполнения на этих данных логического вывода.
Основная идея логического вывода заключается в том, что имеется возможность узнать больше о наборе данных, чем то, что явно записано в самих этих данных.
В результате того, что такая дополнительная информация становится явной, выполняется объяснение (кратким способом) смысла исходных данных.
Такая дополнительная информация получается в результате применения организованным способом шаблонов, которые имеются в исходных данных.
Слайд 16Языки описания информации
Язык это набор знаков управляемый грамматическими правилами их объединения
для передачи смысла.
Различают естественные языки для общения людей и формальные языки (например, математические языки; компьютерные языки).
Языков, также, как и информация, задаются их синтаксисом и семантикой.
Синтаксис это правила объединения элементов языка.
Семантика – это описание смысла, т.е. определение взаимосвязи между элементами языка (означающими, signifiers), такими, как слова, фразы и знаки, и тем, что они означают (обозначаемым, denotata).
Слайд 17Языки описания информации
Языки описания информации основаны на моделях [организации] данных (data
models), которые определяют способы (форматы) формирования информации из элементов данных.
Наиболее часто используемыми моделями данных являются иерархическая и сетевая.
Слайд 18Пример иерархической и сетевой моделей данных
Слайд 19XML-технологии
На основе иерархической модели данных разрабатываются языки описания информации, которые объединяются
общим названием XML-технологии.
Основным языком данной группы является метаязык XML.
С помощью этих языков описание информации выполняется в виде иерархической структуры данных.
Такие языки обычно имеют хорошо определенный синтаксис, но не имеют формально описанную семантику.
Слайд 20Семантические технологии
На основе сетевой модели разрабатываются языки описания информации, которые объединяются
общим названием семантические технологии.
Основным языком данной группы является язык RDF.
Данный язык предоставляет возможность описывать сложные информационные структуры на основе набора бинарных отношений, вида (субъект, предикат, объект).
Имеются разные формы записи выражений языка RDF, которые называются способами сериализации.
Одной из таких форм является запись выражений на основе использования метаязыка XML – RDF/XML.
Слайд 21Языки разметки
В настоящее основными активно используемыми языками описания информации являются языки
разметки (markup languages).
Язык разметки это способ описания информации путем ее разделения на логически связанные части, выделения этих частей с помощью специальных знаков (тэгов) и задания этим частям их синтаксических и семантических свойств.
Тэги, добавляемые к информации, синтаксически отличаются от самого содержания информации.
Слайд 22
Синтаксические свойства языков разметки задаются с помощью задания правил взаимного расположения
знаков, их структурных взаимосвязей.
Семантические свойства задаются с помощью связывания знаков с семантическими моделями (словарями), которые описывают логические взаимосвязи между частями информации.
На основе использования тэгов, программы могут понять структуру и смысл обрабатываемой информации и могут выполнять обработку описанной информации.
Кроме того, большинство языков разметки также могут быть прочитанными человеком, т.е. являются для него понятными – согласуются с их знаниями, моделью внешнего мира.
Слайд 23
Идея языков разметки и их терминология была заимствована из ручного внесения
редакторами пометок в рукописные документы.
Первые языки разметки появились уже в 60-х годах прошлого века.
А в 1974 году был разработан метаязык разметки SGML (Standard Generalized Markup Language), который стал международным стандартом метаязыка разметки в 1986 (ISO 8879:1986).
Однако язык SGML является слишком низкоуровневым и сложным, для эффективного описания информации.
Слайд 24Отношение между языками SGML, XML и HTML
Слайд 25
Обобщенный стандартизированный язык разметки (Standard Generalized Markup Language – SGML) (ISO
8879:1986 SGML) является основной для всех языков разметки.
Языки HTML и XML разработаны на основе языка SGML (хотя и различными способами).
В языке SGML определен базовый синтаксис, который позволяет создавать собственные элементы (отсюда термин «обобщенный» в названии языка).
Для описания документа с помощью языка SGML, нужно определить подходящий набор элементов и структуру документа.
Например, для описания книги, можно воспользоваться следующими элементами с именами BOOK, PART, CHAPTER, INTRODUCTION, A-SECTION, B-SECTION, C-SECTION и т.д.
Слайд 26
SGML это метаязык, т.е. язык, который используется для описания структуры других
языков.
SGML не является в действительности языком описания документов, а должен рассматриваться как независимая от платформы основа для построения используемых языков разметки, имеющих общую структуру.
Все языки разметки, которые используются сейчас, по существу являются подмножествами языка SGML.
SGML структурирован таким образом, что базовая грамматика всех SGML языком должна быть одной и той же, меняется только смысл конкретных тегов.
Слайд 27
Предшественниками SGML был язык GML (1969, исследовательский проект IBM по созданию
интегрированных юридических информационных систем).
Его целью было способствование обмену файлами между редакциями и информационными поисковыми системами.
GML соответствует не только Generalized Markup Language, но также инициалам его создателей (Charles Goldfarb, Edward Mosher, and Raymond Lorie).
SGML был создан American National Standards Institute (ANSI) для определения стандарта описания текстов на основе языка GML.
Первая версия языка была опубликована 1980.
Официальный стандарт появился в 1983.
Вскоре он был одобрен к использованию US Internal Revenue Service и Department of Defense.
Слайд 28
В 1996 г. группа XML Working Group организации W3C, на основе
положительного опыта использования языка HTML для Web-сети, разработала упрощенную версию языка SGML, назвав его расширяемым языком разметки – eXtensible Markup Language (XML).
XML – это метаязык, с помощью которого можно разрабатывать конкретные языки разметки.
Каждый конкретный язык разметки предназначен для описания информации некоторой конкретной предметной области (экономика, компьютерные сети, передача информации и т.п.).
Конкретные языки разметки, разработанные на основе XML также называются XML-приложениями или XML-реализациями.
Слайд 29Примеры широко используемых конкретных языков разметки
XHTML (Extensible Hypertext Markup Language) –
расширяемый язык разметки гипертекстов;
SOAP (Simple Object Access Protocol) – язык для работы с web-сервисами с помощью XML-сообщений;
OFX (Open Financial Exchange) – язык для обмена информацией финансовыми организациями (банками, общественными фондами);
HRMML (Human Resource Management Markup Language) – язык для обмена запросами по приему на работу и резюме;
MathML (Mathematical Markup Language) – язык форматирования математических формул и научной информации;
MusicML (Music Markup Language) – язык описание музыкальных партитур;
OMF (Weather Observation Markup Format) – язык для кодирование прогнозов погоды;
VML (Vector Markup Language) – язык для описания векторной графикой;
SVG (Scalable Vector Graphics) – язык разметки масштабируемой векторной графики;
ThML (Theological Markup Language) – язык представления религиозных текстов.
Слайд 30Классификация языков разметки
Разработан и стандартизирован достаточно большой набор вспомогательных конкретных языков
разметки, с помощью которых можно выполнять различные операции с конкретными языками разметки и XML-документами, как:
описание синтаксиса (схемы) конкретных языков разметки (языки DTD и XML Schema);
связывание XML-документов между собой (языки XPath, XPointer, XLink);
преобразование XML-документов в разные форматы (языки XSLT и XQuery);
описание семантики конкретных языков разметки (языки RDF/RDFS и OWL).
Слайд 31Схема классификации языков разметки
Слайд 33World Wide Web Consortium (W3C)
W3C была создана в Октябре 1994 года.
W3C
была основана создателем Web сети - Tim Berners-Lee.
W3C является организацией содержащей Member Organization
W3C работает для создания стандартов Web сети.
W3C создает и поддерживает WWW стандарты, которые называются W3C Recommendations.
Слайд 34Создание языка HTML
Язык HTML был разработан сотрудником института CERN - Tim
Berners-Lee.
Позднее он стал открытым стандартом, принятым организацией World Wide Web Consortium (www.w3.org) (W3C)
Постоянно ведутся работы для того, чтобы HTML позволил реализовать полный потенциал Web сети.
Слайд 35Язык HTML
Язык HTML предоставляет фиксированный набор элементов, которые можно использовать для
описания элементов (разметки) обычной web-страницы.
Примерами таких элементов являются заголовки, абзацы, списки, таблицы, изображения и гиперссылки.
Например, с помощью HTML можно создать домашнюю web страницу.
Разработан ученым Тим Бернерс Ли в 1989 г.
Слайд 36Пример HTML страницы с использованием языка HTML
Home Page
Michael Young’s
Home Page
Welcome to my Web site!
Web Site Contents
Please choose one of the following topics:
Other Interesting Web Sites
Click one of the following to explore another Web site: