Методы оценки близости строк презентация

Содержание

1. Методы оценки близости строк
2. Строковые метрики Расстояние Хэмминга Расстояние Левенштейна
3. Операции преобразования строк Подстановка
5. Подсчет расстояния Левенштейна i j
6. Подсчет расстояния Левенштейна 0 0
7. Подсчет расстояния Левенштейна
8. Подсчет расстояния Левенштейна
9. Подсчет расстояния Левенштейна
10. Подсчет расстояния Левенштейна
11. Подсчет расстояния Левенштейна
12. Подсчет расстояния Левенштейна
13. Расстояние Дамерау-Левенштейна (перестановка соседних символов)
14. Штраф за пропуски Константный штраф
15. Bag distance (Bartolini, 2002)
16. Bag distance metric s = “bread”
17. Jaro metric (Winkler, 1999)
18. Jaro metric (Winkler, 1999) Общие символы
19. Jaro metric 1. s = “CRETA”
20. Jaro-Winkler metric
21. q-grams metric (Gravano, 2001) q-gram – подстрока
22. q-grams metric s = “MARTHA”
23. Skip-gram metric (Keskustalo, 2003) Skip-gram – “q-грамма”,
24. Общий префикс(Common Prefix)
25. Наибольшая общая подстрока
26. Weighted LCS |Lcs(s,t)| + α – max(α,p) |Lcs(s,t)| + α wLcs(s,t) =
27. Monge-Elkan (Monge and Elkan, 1996) s
28. Наборы тестирующих данных Польские имена (1457) Полные польские имена (1219)
29. Результаты исследования
30. Конец доклада Вопросы?

Главная
Разное
Методы оценки близости строк

Слайд 1Методы оценки близости строк
Татьяна Кривошеева

Слайд 2Строковые метрики
Расстояние Хэмминга
Расстояние Левенштейна
Расстояние Дамерай-Левенштейна,
Метрика Нидлмана-Вунша,

Метрика Смита-Вотермана
Bag distance
Метрики Jaro, Jaro-Winkler
q-grams, skip-grams
Общий префикс
Наибольшая общая подстрока
Метрика Monge-Elkan

Слайд 3Операции преобразования строк

Подстановка kill

bill

Вставка kill skill

Удаление fear ear

Слайд 4

1. Расстояние Хэмминга (подстановка)

dH(GCAT,CGAT) = 2 2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) = 3

Слайд 5Подсчет расстояния Левенштейна
i
j

Слайд 6Подсчет расстояния Левенштейна
0
0

Слайд 7
Подсчет расстояния Левенштейна

Слайд 8Подсчет расстояния Левенштейна

Слайд 9Подсчет расстояния Левенштейна

Слайд 10Подсчет расстояния Левенштейна

Слайд 11Подсчет расстояния Левенштейна

Слайд 12Подсчет расстояния Левенштейна

Слайд 13Расстояние Дамерау-Левенштейна
(перестановка соседних символов)
dDL(GCAT,CGAT) = 1

Метрика

Нидлмана-Вунша
(за операции вставки, удаления, подстановки можно получить разный штраф)
delete (c) = 1 insert (c) = 2 substitute (c) = 3

Метрика Смита-Вотермана
(штраф за операцию зависит от символа)
delete (‘A’) = 2 delete (‘B’) = 0.1

Слайд 14Штраф за пропуски
Константный штраф
dC(“gov”, “government”) = 3

Линейный штраф

dL(“gov”, “government”) = 3 * 7 = 21

Афинный штраф
dA(“gov”, “government”) = 3 + 6 * 2 = 15

Слайд 15
Bag distance (Bartolini, 2002)

Слайд 16Bag distance metric
s = “bread”

t = “beer”

M(s) = {‘b’,‘r’,‘e’,‘a’,‘d’} M(t) = {‘b’,‘e’,‘e’,‘r’}

M(s) \ M(t) = { ‘a’, ‘d’ } M(t) \ M(s) = { ‘e’ }

bagdist(s,t) = max (I{ ‘a’, ‘d’ }I, I{ ‘e’ }I) = 2

Слайд 17Jaro metric (Winkler, 1999)

J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I

– [Ts’,t’ /2])/Is’I)

s = a1a2. . .ak t = b1. . .bL

s’ и t’ строки общих символов s и t

Ts’,t’ количество транспозиций

Слайд 18Jaro metric (Winkler, 1999)
Общие символы

ai = bj

R = [max(IsI,ItI)/2] - 1

Слайд 19Jaro metric
1. s = “CRETA”

t = “TRACES”
2. R = [max(|s|, |t|)/2] – 1 = [max(5, 6)/ 2] -1 =2
3. s’ = “REA” t’ = “RAE”
4. Ts’t’ = 2

J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I – [Ts’,t’ /2])/Is’I)
= ⅓*(3/5 + 3/6 + (3 – [2/2])/3) = 0.59

Слайд 20Jaro-Winkler metric

JW(s,t) =

J(s,t) + α* boost(s,t)*(1-J(s,t))
boost(s,t) = min( ILcp(s,t)I, p)

s = “DIXON” t = “DICKSONX”

J(s,t) = 0.767 α = 0.1 p = 2

Lcp(s,t) = “DI”
boost(s,t) = min (2, 2) = 2

JW(s,t) = 0.767 + 0.1*2 *(1 – 0.767) = 0.813

Слайд 21q-grams metric (Gravano, 2001)
q-gram – подстрока заданной строки длины q

s = “MARTHA”

q

= 2
G2(s) = { “#M”,“MA”, “AR”, “RT”, “TH”, “HA”, “A#”}

q = 3
G3(s) = { “##M”,“#MA”,“MAR”, “ART”, “RTH”,
“THA”,“HA#”,“A##”}

Слайд 22q-grams metric
s = “MARTHA” t =

“MARCH”

G2(s) = { “#M”,“MA”, “AR”, “RT”, “TH”, “HA”, “А#”}

G2(t) = { “#M”,“MA”, “AR”, “RC”, “CH”, “H#”}

q-gram(s,t) = 3 / max(7, 6) = 0.43

Слайд 23Skip-gram metric (Keskustalo, 2003)
Skip-gram – “q-грамма”, которая может
состоять из несоседних символов

s =

“MARTHA” q = 2 skip{0,1}

Gskip{0,1}(s)={“#M”,“#A”,“MA”,“MR”,“AR”,“AT”,
“RH”,“TA”,“RT”,“TH”, “HA”,“A#”,
“H#”}

Слайд 24Общий префикс(Common Prefix)

2
CPα(s,t) = (|Lcp(s,t)| + α) / (|s| * |t|)

s = “MARTHA” t = “MARCH”
Lcp(s,t) = 3 α = 1
2
CP1(s,t) = (3 + 1) / (6 * 5) = 0.53

Слайд 25Наибольшая общая подстрока

0, |Lcs(s,t)| < k
|Lcs(s,t)| + LCS(s-Lcs(s,t), t-Lcs(s,t))

s = “abcdeftg” t = “bcdaefg” k = 2

s = “abcdeftg” t = “bcdaefg”
LCS(s,t) = 3 + LCS(“aeftg”, “aefg”)
s-Lcs(s,t) = “aeftg” t-Lcs(s,t) = “aefg”
LCS(s,t)= 3 + 3 + LCS(“tg”, “g”) = 6

{

LCS(s,t) =

Слайд 26 Weighted LCS
|Lcs(s,t)| + α – max(α,p)
|Lcs(s,t)| + α
wLcs(s,t)

Слайд 27Monge-Elkan (Monge and Elkan, 1996)

s = {s1s2..sK} t

= {t1t2..tL}

Monge-Elkan(s,t) = 1/K * Ʃ max sim(si,tj)

sim(si,tj) – любая метрика для сравнения
двух строк

i=1

j=1..L

Слайд 28Наборы тестирующих данных

Польские имена (1457)

Полные польские имена (1219)

Слайд 29Результаты исследования

Слайд 30Конец доклада

Вопросы?

Скачать презентацию

Методы оценки близости строк презентация

Содержание

Слайд 1Методы оценки близости строк
Татьяна Кривошеева

Слайд 2Строковые метрики
Расстояние Хэмминга
Расстояние Левенштейна
Расстояние Дамерай-Левенштейна,
Метрика Нидлмана-Вунша,

Слайд 3Операции преобразования строк

Подстановка kill

Слайд 4

1. Расстояние Хэмминга (подстановка)

Слайд 5Подсчет расстояния Левенштейна
i
j

Слайд 6Подсчет расстояния Левенштейна
0
0

Слайд 7
Подсчет расстояния Левенштейна

Слайд 8Подсчет расстояния Левенштейна

Слайд 9Подсчет расстояния Левенштейна

Слайд 10Подсчет расстояния Левенштейна

Слайд 11Подсчет расстояния Левенштейна

Слайд 12Подсчет расстояния Левенштейна

Слайд 13Расстояние Дамерау-Левенштейна
(перестановка соседних символов)
dDL(GCAT,CGAT) = 1

Метрика

Слайд 14Штраф за пропуски
Константный штраф
dC(“gov”, “government”) = 3

Линейный штраф

Слайд 15
Bag distance (Bartolini, 2002)

Слайд 16Bag distance metric
s = “bread”

Слайд 17Jaro metric (Winkler, 1999)

J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I

Слайд 18Jaro metric (Winkler, 1999)
Общие символы

Слайд 19Jaro metric
1. s = “CRETA”

Слайд 20Jaro-Winkler metric

JW(s,t) =

Слайд 21q-grams metric (Gravano, 2001)
q-gram – подстрока заданной строки длины q

s = “MARTHA”

q

Слайд 22q-grams metric
s = “MARTHA” t =

Слайд 23Skip-gram metric (Keskustalo, 2003)
Skip-gram – “q-грамма”, которая может
состоять из несоседних символов

s =

Слайд 24Общий префикс(Common Prefix)

Слайд 25Наибольшая общая подстрока

Слайд 26 Weighted LCS
|Lcs(s,t)| + α – max(α,p)
|Lcs(s,t)| + α
wLcs(s,t)

Слайд 27Monge-Elkan (Monge and Elkan, 1996)

s = {s1s2..sK} t

Слайд 28Наборы тестирующих данных

Польские имена (1457)

Полные польские имена (1219)

Слайд 29Результаты исследования

Слайд 30Конец доклада

Вопросы?

Обратная связь

Что такое ThePresentation.ru?

Методы оценки близости строк презентация

Содержание

Слайд 1Методы оценки близости строкТатьяна Кривошеева

Слайд 2Строковые метрикиРасстояние ХэммингаРасстояние Левенштейна Расстояние Дамерай-Левенштейна, Метрика Нидлмана-Вунша,

Слайд 3Операции преобразования строкПодстановка kill

Слайд 4 1. Расстояние Хэмминга (подстановка)

Слайд 5Подсчет расстояния Левенштейна ij

Слайд 6Подсчет расстояния Левенштейна00

Слайд 7Подсчет расстояния Левенштейна

Слайд 8Подсчет расстояния Левенштейна

Слайд 9Подсчет расстояния Левенштейна

Слайд 10Подсчет расстояния Левенштейна

Слайд 11Подсчет расстояния Левенштейна

Слайд 12Подсчет расстояния Левенштейна

Слайд 13Расстояние Дамерау-Левенштейна (перестановка соседних символов) dDL(GCAT,CGAT) = 1Метрика

Слайд 14Штраф за пропускиКонстантный штраф dC(“gov”, “government”) = 3Линейный штраф

Слайд 15Bag distance (Bartolini, 2002)

Слайд 16Bag distance metrics = “bread”

Слайд 17Jaro metric (Winkler, 1999) J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I

Слайд 18Jaro metric (Winkler, 1999)Общие символы

Слайд 19Jaro metric1. s = “CRETA”

Слайд 20Jaro-Winkler metric JW(s,t) =

Слайд 21q-grams metric (Gravano, 2001)q-gram – подстрока заданной строки длины qs = “MARTHA”q

Слайд 22q-grams metric s = “MARTHA” t =

Слайд 23Skip-gram metric (Keskustalo, 2003)Skip-gram – “q-грамма”, которая можетсостоять из несоседних символовs =

Слайд 24Общий префикс(Common Prefix)

Слайд 25Наибольшая общая подстрока

Слайд 26 Weighted LCS |Lcs(s,t)| + α – max(α,p)|Lcs(s,t)| + αwLcs(s,t)

Слайд 27Monge-Elkan (Monge and Elkan, 1996)s = {s1s2..sK} t

Слайд 28Наборы тестирующих данныхПольские имена (1457) Полные польские имена (1219)

Слайд 29Результаты исследования

Слайд 30Конец докладаВопросы?

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 1Методы оценки близости строк
Татьяна Кривошеева

Слайд 2Строковые метрики
Расстояние Хэмминга
Расстояние Левенштейна
Расстояние Дамерай-Левенштейна,
Метрика Нидлмана-Вунша,

Слайд 3Операции преобразования строк

Подстановка kill

Слайд 4

1. Расстояние Хэмминга (подстановка)

Слайд 5Подсчет расстояния Левенштейна
i
j

Слайд 6Подсчет расстояния Левенштейна
0
0

Слайд 7
Подсчет расстояния Левенштейна

Слайд 13Расстояние Дамерау-Левенштейна
(перестановка соседних символов)
dDL(GCAT,CGAT) = 1

Метрика

Слайд 14Штраф за пропуски
Константный штраф
dC(“gov”, “government”) = 3

Линейный штраф

Слайд 15
Bag distance (Bartolini, 2002)

Слайд 16Bag distance metric
s = “bread”

Слайд 17Jaro metric (Winkler, 1999)

J(s,t) = ⅓*(Is’I/IsI + It’I/ItI + (Is’I

Слайд 18Jaro metric (Winkler, 1999)
Общие символы

Слайд 19Jaro metric
1. s = “CRETA”

Слайд 20Jaro-Winkler metric

JW(s,t) =

Слайд 21q-grams metric (Gravano, 2001)
q-gram – подстрока заданной строки длины q

s = “MARTHA”

q

Слайд 22q-grams metric
s = “MARTHA” t =

Слайд 23Skip-gram metric (Keskustalo, 2003)
Skip-gram – “q-грамма”, которая может
состоять из несоседних символов

s =

Слайд 26 Weighted LCS
|Lcs(s,t)| + α – max(α,p)
|Lcs(s,t)| + α
wLcs(s,t)

Слайд 27Monge-Elkan (Monge and Elkan, 1996)

s = {s1s2..sK} t

Слайд 28Наборы тестирующих данных

Польские имена (1457)

Полные польские имена (1219)

Слайд 30Конец доклада

Вопросы?