Информационный анализатор текстов и литературных произведений – программа Pen-Mastery презентация

Содержание

В Интернет-пространстве при желании можно найти практически любую информацию и в любой форме. Но чаще всего информация подается в виде текстов, что обусловлено историей развития человечества. И пока

Слайд 1ХХ Белорусская конференция учащихся (2016) (Минск, Беларусь)
Секция «Информатика»
Информационный анализатор текстов и
литературных произведений

– программа «Pen-Mastery»

Авторы работы:
Близинская Елизавета (9 кл.),
Орешко Ольга (11 кл.),
Одесский УВК №49
«Специализированная школа – общеобразовательная школа І-ІІІ ступеней» г. Одесса, Украина


Слайд 2 В Интернет-пространстве при желании можно найти практически любую информацию и

в любой форме.
Но чаще всего информация подается в виде текстов, что обусловлено историей развития человечества.
И пока «печатное слово» для большинства населения Земли является самым привычным способом подачи и восприятия информации.

Вступление


Слайд 3 Но человеческое сознание меняется медленно. И при самых новейших технологиях

остаются некоторые «старые» проблемы, среди которых можно назвать плагиат и бессмысленные тексты.
Конечно, проблема плагиата и плагиаторов далеко не нова. Но для этого человеческого недуга появляется и своего рода противоядие – компьютерные программы, способные анализировать текст.
И в связи с этим актуальной является задача создания универсального анализатора текста.

Слайд 4На данный момент существуют такие лингвистические системы:


Слайд 5Цель работы:
Разработка авторской программы – универсального анализатора машиночитаемых текстов
Объект исследования:
Предмет
исследования:
Процесс анализа

оцифрованных текстов и определения ряда ключевых и некоторых дополнительных характеристик исследуемого текста

Средства анализа текстов и интерпретация полученных результатов после вычислений


Слайд 6Получение определенных объективных (математических или статистических) характеристик информации, которая содержится в

текстовом файле;

Организация модульной структуры будущей программы и обеспечение взаимодействия между ее модулями, а также обеспечение взаимодействия MS Word и MS Excel через программный код при анализе текста;

Разработка специфических алгоритмов для определения «степени авторства» заданного текста на основе проверки статистических гипотез;

Разработка специфических алгоритмов и методов анализа текстов на предмет наличия в них заранее определенных слов или словосочетаний и последующей реакции программы на такие слова;

Разработка удобного и интуитивно понятного пользовательского интерфейса программы (UserForm).

При выполнении работы решались такие задачи:


Слайд 7При составлении данной программы были сформулированы следующие рабочие гипотезы :

Известно, что разнообразие (или богатство) речи определяется тем, сколько языковых единиц (т.е. слов и фразеологизмов) находится в словарном запасе говорящего, и чем разнообразнее речь, тем больше в ней содержится информации, больше личных оценок, авторского отношения к предмету речи.
Отсюда предположение автора о том, что информационная энтропия текста однозначно связана с лексическим разнообразием (иначе – разнообразием словарного запаса) говорящего или пишущего человека.

Гипотеза № 1


Слайд 8… рабочие гипотезы – 2 :
Известно, что у сочинителя

обязательно вырабатывается некоторый «авторский стиль», который и формирует то, что написано человеком. Этому стилю сочинителя присущи свои признаки – сигнатуры* письма.
Отсюда предположение автора о том, что можно оцифровать эти сигнатуры и использовать их для дальнейшей интерпретации.
* Сигнатура – характерная особенность к.-либо объекта, обеспечивающая его идентификацию.

Гипотеза № 2


Слайд 9 Не секрет, что субъективные факторы могут влиять на результаты какой-либо

экспертизы.
Математика способна удалить субъективизм из любой проблемы или вопроса.

Поэтому для обеспечения по-настоящему научной экспертной оценки обычно применяют
общие и специальные математические процедуры
для подсчета определенных ключевых и
некоторых дополнительных характеристик анализируемого текста.

Такими характеристиками с точки зрения информатики, прикладной лингвистики и ее новейшего направления – компьютерной лингвистики – будет несколько математических величин.

Методика исследования анализируемого текста - 1


Слайд 10Методика исследования анализируемого текста - 2
Среди этих величин было выбрано три

основных :
энтропия текста Н,
математическое ожидание < X > и
стандартное отклонение σ .
В программе они названы главными статистическими величинами (на пользовательской форме они обозначены как «main Stat. data»)

Кроме перечисленных основных статистических показателей, было избрано несколько дополнительных величин (на форме – «Relat. Frequency of Signes»), которые, по мнению автора программы, тесно связаны с творческой манерой сочинителя.
Вместе эти показатели и формируют максимально объективные характеристики авторского стиля исследуемого текста.


Слайд 11Для подсчета названных величин программа «Pen-Mastery» проводит двухэтапную декомпозицию анализируемого текста:

сначала весь текст раскладывается на слова, а затем эти слова – на составляющие их символы. После этого программа производит частотно-статистический анализ этих символов как разъединенных элементов текста.
Для подсчета текстовой энтропии Н обычно используют формулу К.Шеннона, где учитывается вероятность pi появления i-го символа в исследуемом тексте: .
Математическое ожидание < X > имеет смысл «накопительного коэффициента использования определенных символов в тексте», а также одной из объективных «чувствительной-к-личности» характеристик анализируемого текста. А т.к. математическое ожидание в статистике всегда сопровождается стандартным отклонением σ, и пара этих величин записывается в виде:

«Как оно работает ?» - 1




Слайд 12«Как оно работает ?» - 2
Теперь можно считать набор

приведенных математических характеристик достаточно информативным и объективным признаком авторского стиля сочинителя текста.

Возможно, перечисленный выше набор характеристик не будет достаточным для полноценной экспертной оценки относительно авторства какого-то текста, и решение этого вопроса нуждается в дополнительных уточнениях. → Это может быть некоторые клавиатурные символы, которые можно считать присущими для письменного творчества какой-то определенной личности наподобие отпечатков ее пальцев.

Таким образом, частотные коэффициенты употребления некоторых специфических символов могут также быть важными идентификаторами при определении авторского стиля человека.

Слайд 13Поскольку VBA уже много лет является отраслевым стандартом для управления приложениями

MS Office под Windows, то, естественно, реализовать предложенную методику и алгоритмы было решено в этой среде программирования.
Программа «Pen-Mastery» анализирует заданный текст по данной логической схеме:

Программная реализация предложенной методики


Слайд 14Приступая к работе с программой, пользователь должен разместить анализируемый текст в

«строго определенный Word-файл» (т.е. в .doc- или .docx-файл с определенным названием и с определенным размещением на выбранном носителе), после чего необходимо запустить на исполнение базовый макрос (размещенный в Excel-мастер-файле), который вызовет на дисплей пользовательскую форму (UserForm). Эта форма предложит зарегистрировать подлежащий исследованию текст.

Анализ текста в «Pen-Mastery v.1» : шаг за шагом


Слайд 15Сама регистрация подлежащего анализу текста происходит в два этапа.
Сначала «записывается» автор

текста:

Анализ текста в «Pen-Mastery v.1» : шаг 1


Слайд 16Затем – название текста:
Анализ текста в «Pen-Mastery v.1» : шаг 2


Слайд 17Программа «следит» за ошибками человека: если не было внесено ни одной

регистрационной записи – идентификатора автора и текста, то на дисплей выводится сообщение об этом с соответствующим напоминанием

Анализ текста в «Pen-Mastery v.1» : шаг 2


Слайд 18После успешного завершения процедуры регистрации анализируемого текста программа выдает сообщение об

этом. Теперь наступает фаза математического анализа текста. Кнопка «ANALYSING» запускает соответствующий модуль
на исполнение.

Анализ текста в «Pen-Mastery v.1» : шаг 3


Слайд 19После выполнения инструкций базового модуля на форме появляется сообщение об окончании

анализа текста.
Теперь пользователю доступны результаты исследования.

Анализ текста в «Pen-Mastery v.1» : шаг 4


Слайд 20Полнота выводимых на дисплей статистических характеристик исследуемого текста регулируется переключателем режимов:
либо

«main Stat. data», либо «Relat. Frequency of Signes».

Анализ текста в «Pen-Mastery v.1» : шаг 5

Вывод основных данных:


Слайд 21Вывод дополнительных данных:
Анализ текста в «Pen-Mastery v.1» : шаг 6


Слайд 22Выводы
Программа-анализатор «Pen-Mastery» задумана и сделана как модульный конструктор, который функционирует по

принципу наращивания возможностей. Такая структура, безусловно, является преимуществом программы.

Ценность проведенной работы состоит в том, что составлена многоцелевая модульная программа – анализатор текста, определяющая набор числовых характеристик, которые с высокой степенью достоверности позволяют судить об авторском стиле исследуемого текста. Полученной объективной информации, как правило, достаточно, чтобы с определенной погрешностью установить степень плагиата анализируемого текста. Кроме того, представленная программа способна установить, есть ли в данном тексте заранее определенное слово или словосочетание.

При помощи программы «Pen-Mastery» был проанализирован согласно описанной методике ряд произведений русской литературы (авторы: А.С.Пушкин, Н.В.Гоголь, И.А.Бунин). Таким образом сформированная к настоящему времени БД позволяет подтвердить гипотезы автора.

Развивая данную программу, можно сделать ее кросс-платформенной. Кроме этого, можно предложить пользователям версии данной программы на разных языках.

Слайд 23Алгоритмы анализа машиночитаемых текстов программы «Pen-Mastery» позволяют ее успешно применять как

для специалистов, так и для заинтересованных пользователей:
 
при ведении борьбы с плагиатом машиночитаемых текстов;
при определении авторства известных и новых литературных произведений (например, при идентификации современных и старых артефактов);
при оценке разнообразия словарного запаса человека (на основе его письменных работ);
при рецензировании сообщений во время их набора («на лету») в социальных сетях и SMS.

Применение


Слайд 24Спасибо за внимание !
Настоящая работы выполнена в рамках Регионального образовательного проекта

“IT docentes FUTURUM” (ITDF), инициатором которого является
Одесская национальная академия связи им. А.С. Попова (ОНАС)

See us at : www.facebook.com/ITDF.ua


Слайд 25See us at : www.facebook.com/ITDF.ua
Региональный образовательный проект “IT docentes FUTURUM” (ITDF)


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика