Статистические оценки семантических и других лингвистических свойств слов презентация

Содержание

Частотные словари Информацию о каких словах следует включать? Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса? Как выделять значимые слова?

Слайд 1Статистические оценки семантических и других лингвистических свойств слов


Слайд 2Частотные словари
Информацию о каких словах следует включать?
Как оценивать информацию о частотности

слова, полученную на материале конкретного корпуса?
Как выделять значимые слова?

Слайд 3Частотное поведение слова
Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное
ipm, wpm

– количество употреблений на миллион


Слайд 4Частотные словари
В Частотный словарь приводится либо f (x), либо нормированная частота



где N — число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Частотный словарь имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Частотный словарь приводятся и абсолютные, и относительные характеристики. Частотный словарь используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).


Слайд 5Частотные словари
Для русского языка было разработано несколько частотных словарей. Пионером был

словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.


Слайд 650 самых частотных слов в английском языке


Слайд 7
Частоты слов, полученные по выборке, должны отличаться от частот слов, существующих

в совокупности, не более чем на заданную величину относительной ошибки.



, N – объем выборки, δ - заданная относительная ошибка, p – частота, zp – константа
 
Пример: словарь Торндайка и Лорджа – указывали пределы p±δp



Слайд 8Сравнительная частота слов по частотным словарям


Слайд 9Частотные словари
Если слово встретилось в тексте один раз, то при нормальном

распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст.  В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении.


Слайд 10Частотные словари
Корпус большего размера, отражающий большее количество тем и функциональных стилей

(корпус типа BNC или НКРЯ), обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию (см., например, проекты создания Гига-корпусов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002), может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.


Слайд 11Частотные словари
Поскольку задачей частотного словаря является не просто ранжировать слова по

их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка.

Слайд 12
Чешский национальный корпус: средняя уменьшенная частота (ARF, Average Reduced Frequency), частота

слова взвешивается по расстоянию между отдельными словоупотреблениями (Čermak & Křen 2005).
коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах:



где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово.
Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0. 


Слайд 13Частотные словари
слова жуткий, специфический и сырье имеют примерно равную частоту (21

употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.


Слайд 14Частотные словари: «значимая» лексика
Частотные словари функциональных стилей составлены на основе подкорпусов

художественной литературы, публицистики, другой нехудожественной литературы и устной речи. В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы:

 


Слайд 15
Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу);
Компьютерная лексикография

(выделение «значимой» лексики, выделение коллокаций (MWE), разрешение семантической неоднозначности (WSD));
грамматическая разметка (снятие грамматической омонимии)


Слайд 16Весовые функции
частота (вероятность)
документная частота
tf.idf
меры «близости» / различия (дифференцирующая функция):
Коэффициенты
T-score
MI-score
LogLikelihood Ratio
Хи-квадрат
Косинусная

мера
Коэффициенты корреляции

Слайд 17Используемые модели
Задачи выявления лексических (грамматических) свойств языковых элементов (/ текстов) сводятся

к задачам:
кластеризации и классификации
Векторное пространство
Вероятностные модели
«Языковые» модели (марковские модели)
Энтропийные модели


Слайд 18Модель «мешок слов» - векторная модель документа
Вероятностная модель
Информационная модель
И др.
Тематическая значимость

лексемы в тексте

Слайд 19Информационный поиск (ИП)‏
Модель поиска:
Задача: найти Х


Задача 1: создать поисковый образ

объекта -
выделить множество диагностических парметров

Задача 2: сравнить объекты и найти образы объектов «максимально близкие» к искомому образу


Слайд 20Признаки:
координаты в пространстве

Близость (подобие):
близость в пространстве
Поисковый образ:
вектор в пространстве

признаков

Векторная модель


Слайд 21Для построения пространства терминов обычно используются основы слов, отдельные слова, а

также целые фразы, пары слов и т.д.
Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов wt.
Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов.

Векторная модель


Слайд 22Ключевые вопросы:

Как выбирать размерность пространства терминов N ?
Как вычислять весовые коэффициенты

wt ?

Векторная модель


Слайд 23попытаемся определить список значимых слов:
Законы Зипфа универсальны. В принципе, они применимы

не только к текстам. В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет -- тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. Так, например, ученые давно бьются над расшифровкой манускриптов Войнича. Никто не знает, на каком языке написаны тексты и тексты ли это вообще. Однако исследование манускриптов на соответствие законам Зипфа доказало: это созданные человеком тексты. Графики для манускриптов Войнича точно повторили графики для текстов на известных языках.

Векторная модель: весовые коэффициенты


Слайд 25Смысл абзаца очень точно выражают слова: зипфа, манускриптов, войнича, законам. Запрос

типа: + "закон* зипфа" + "манускрипт* войнича" непременно найдет нам этот документ.
Однако в область попали и слова: на, не, для, например, это. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор.

Весовые коэффициенты


Слайд 26Принцип Луна (Luhn)‏

Самые часто встречающиеся слова – не самые значимые!


Слайд 27
Как различить не, тексты и зипфа?
3 ТЕКСТЫ
Весовые

коэффициенты

Tf = 3


Слайд 28idf:
Инверсная частота термина i = log (количество документов в базе данных

/ количество документов с термином i).

Весовые коэффициенты

Каждому термину можно присвоить весовой коэффициент, отражающий его значимость:

Вес термина i в документе j = частота термина i в документе j х инверсная частота термина i.


Слайд 29Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри

документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п.

Весовые коэффициенты


Слайд 30
Расчет tf x idf
tfik – частота термина Tk в

документе Di
idfk – обратная документальная частота для термина Tk в коллекции С
N – общее число документов в коллекции
Nk - количество документов в коллекции C, содержащих термин Tk



Слайд 31Все документы базы данных размещаются в воображаемом пространстве.
Координаты каждого документа

зависят от структуры терминов, в нем содержащихся (от весовых коэффициентов, положения внутри документа, от расстояния между терминами и т.п).
В результате окажется, что документы с похожим набором терминов разместятся в пространстве ближе друг к другу

Векторная модель


Слайд 32Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве
Компоненты

вектора соответствуют N терминам, образующим пространство.

Векторная модель


Слайд 33Составим запрос:
корабли в бутылках.
Получив его, поисковая система удалит лишние

слова, выделит термины и вычислит вектор запроса в пространстве документов (стрелочка на рисунке). Установив некоторый диапазон соответствия, система выдаст документы, попавшие в заштрихованную область на рисунке .

Векторная модель


Слайд 34
Релевантность выражается через подобие векторов
Для вычисления подобия векторов используется косинусная метрика
Векторная

модель



Слайд 35Бинарные веса:
Wij=1 если документ di содержит термин tj, иначе 0.
Частота

термина tfij , т.е. сколько раз встретился термин tj в документе di
tf x idf:
чем выше частота термина в документе – тем выше его вес, но
термин должен не часто встречаться во всей коллекции документов

Расчет весов терминов


Слайд 36Tf.idf
иногда вместо tf используют wf
 


Слайд 37Нормализация
Нормализация представляет собой способ уменьшения абсолютного значения веса индексных терминов,

обнаруженных в документе. Одним из наиболее распространенных методов, решающих данную проблему, является косинусная нормализация. При использовании этого метода нормализации вес каждого индексного термина делится на Евклидову длину вектора оцениваемого документа. Евклидова длина вектора определяется формулой:


Вес термина:

Слайд 38Нормализация
Один из способов нормализации оценки по частоте термина в документе по

максимальной частоте треминов в документе. Для каждого документа d, пусть tfmax(d) = maxt tft,d, where t ranges over all terms in d. Тогда нормализованная частота для каждого термина t из документа d




где a некторое число от 0 до 1, обычно 0.5. Это сглаживающий фактор.

Слайд 39Нормализация по длине документа
K1 и b – параметры настройки (вычисляются экспериментальным

путем): k1 – регулирует вклад частоты термина (=2), b – регулирует эффект длины документа (от 0 до 1, TREC – b=0.75)

Слайд 40Компоненты весовой функции


Слайд 42Расчет тематического веса на основе вероятностной модели информационного поиска
Идея в том,

что можно построить теоретическое распределение некоторого термина по текстам исходя из его средней частоты в целом массиве (например, распределение Пуассона с некоторыми параметрами). Если термин становится темой в некоторой подколлекции документов или в документе его распределение резко меняется и сильно отличается от теоретического.  Задача: определить те тексты, в которых распределение элемента в тексте существенно отклоняется от предстказанного (теоретического)
(см., например, Manning, Christopher D., and Hinrich Schütze. 1999. Foundations of Statistical Natural) и др.)

Слайд 43Вероятностная модель
в 1977 году Robertson и Sparck-Jones (Робертсон и Спарк-Джоунз) обосновали

и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции.

Слайд 44Вероятностная модель
В работах Букштейна, Свенсона и Хартера было показано, что распределение

функциональных слов в отличие от специфических слов с хорошей точностью описывается распределением Пуассона. То есть, если ищется распределение функционального слова w в некотором множестве документов, тогда вероятность f(n) того, что слово w будет встречено в тексте n раз представляется функцией:





распределение Пуассона. Значение параметра x варьируется от слова к слову, и для конкретного слова должно быть пропорционально длине текста. Слова, распределенные в совокупности документов согласно Пуассону, полезной информации не несут.
λi = cfi / N , где cfi – частота в коллекции

Слайд 45Вероятностная модель
Допущения:
Вероятность термина в (коротком) фрагменте текста пропорциональна длине текста
Вероятность встретить

термин в коротком тексте более, чем один раз, «не отличается» от вероятности встретить термин один раз
Вероятности встретить термин в непересекающихся фрагмеентах ткста независимы

Слайд 46Вероятностная модель
Оценки для 6 слов из корпуса New York Times
N(1-p(0;λi) –

оценка частоты появления слова в соответствии с предположением о Пуассоновском распределении
Всего документов - 79291


Слайд 47Оценка на основе обратной документной частоты
Оценка шанса того, что документ релевантен

относительно запроса:

P(R|d) – вероятность того, что документ релевантен
P(-R|d) – вероятность того, что документ нерелевантен


Слайд 48Residual inverse document frequency
Разница между логарифмом наблюдаемой обратной документной частоты термина

и обратной документной частоты, предсказанной, исходя из предположения о Пуассоновском распределении термина в тексте

Слайд 49Вероятностная модель
Пусть запрос – это множество терминов {wi}, а X –

случайная величина со значениями 0 и 1, соответствующими присутствию или отсутствию термина в документе. В предположении о независимости терминов:

Если задача состоит только в том, чтобы упорядочить документы по релевантности, то последние 2 слагаемых можно опустить – константа по отношению к фиксированному запросу
Тогда ранжирующая функция:

Последнее слагаемое - также константа


Слайд 50Вероятностная модель



Но: нам неизвестно релевантный или нерелевантный документ
Тогда необходимо сделать еще

ряд допущений:
Вероятность встретить термин в релевантном документе p –малая и и одинаковая для всех терминов
Большинство документов – нерелевантные


Слайд 51N - полное число документов в системе. R - число релевантных

документов r - число релевантных документов, выданных в ответ на запрос n - полное число документов, выданных в ответ на запрос
Таблица представляет результаты запроса, направленного системе поиска. Представленная таблица должна существовать для каждого из индексных терминов.
Если мы обладаем всей информацией о релевантных и нерелевантных документах в коллекции документов, то применимы следующие оценки:

Коэффициент при xi показывает, до какой степени можно провести дискриминацию по i-тому термину в рассматриваемой коллекции документов. В действительности, N может рассматриваться не только как полное количество документов во всей коллекции, но и в некотором ее подмножестве.


Слайд 52Комбинированный подход Okapi BM25
where f(qi,D) is qi's term frequency in the

document D, | D | is the length of the document D (number of words), and avgdl is the average document length in the text collection from which documents are drawn. k1 and b are free parameters, usually chosen as k1 = 1.2 and b = 0.75. IDF(qi) is the IDF (inverse document frequency) weight of the query term qi.

Слайд 53
Векторная модель:
«Для построения пространства терминов обычно используются основы слов, отдельные слова,

а также целые фразы, пары слов и т.д.
Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов wt.
Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов»
Тематические веса расчитываются на основе частоты термина в документе и частоты термина по документам
Достоинства модели:
«Учет весов повышает эффективность поиска
Позволяет оценить степень соответствия документа запросу
Косинусная метрика удобна при ранжировании
Проблемы:
Нет достаточного теоретического обоснования для построения пространства терминов
Поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными


Слайд 54
Вероятностные модели
Заключаются в оценке вероятности того, что документ d является релевантным

по отношению к запросу q: Pr(R|d,q).
При ранжировании документов в выборке ключевым являет Принцип Ранжирования Вероятностей, согласно которому если каждый ответ поисковой системы представляет собой ранжированный по убыванию вероятности полезности для пользователя список документов, то общая эффективность системы для пользователей будет наилучшей.
Достоинства:
Хорошее теоретическое обоснование
При имеющейся информации дают наилучшие предсказания релевантности
Могут быть реализованы аналогично векторным моделям
Недостатки:
Требуется информация о релевантности или ее приближенные оценки
Структура документа описывается только терминами
Оптимальные результаты получаются только в процессе обучения на основе информации о релевантности

Слайд 55“Информационная” модель
Она базируется на теория информации Шенона: чем выше вероятность появления

слова, тем оно менее информативно. Оценивает «шум» термина для некоторой коллекции из n документов:


где TOTFREQk – общая частота термина k в коллекции

По Сэлтону (Salton and McGill) SIGNALk дает не очень хорошие результаты в информационном поиске, т.к. переоценивает концентрацию терминов в небольшом количестве документов коллекции (Salton and McGill, 1983, pp.66,73).


Слайд 56The Term Discrimination Value
Оценка строится на оценке «различительной» силы термина:

каков вклад термина в то, чтобы два документа можно было различить. Вычисляется AVGSIM - the average document-pair similarity (мера близости 2-х документов с данным термином) и (AV GSIM)k – мера близости 2-х документов, если данный термин будет удален из всех документов. [Salton 1989]:

Где sim(Ditf>k) – коэффициент подобия


Слайд 57The Term Discrimination Value
В соответствии с этой оценкой термин имеет

высокую «различительную силу», если значение этой оценки положительное: документы становятся менее похожие, если в одном из них содержится термин j. Положительное значение дискриминантного коэффициента обычно дают среднечастотные термины. Высокочастотные термины обычно имеют отрицательный коэффициент. Редкие термины никак не влияют на плотность документов – соответственно значение коэффициента близко к 0. Positive discrimination values are usually associated with certain medium frequency terms that appear neither too rarely nor too frequently in < collection.
Инверсная частота термина: при увеличении количества документов с данным термином вес уменьшается vs. Дискриминационный вес (discrimination value) вначале растет от 0 в положительную сторону с ростом количества документов с этим термином, а потом резко уменьшается, если количество документов, содержащих данный термин, продолжает увеличиваться
Новый коэффициент: частота термина внутри документа * term-discrimination value



Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика