Как мы храним большой социальный граф презентация

Содержание

1. Как мы храним большой социальный граф
2. План доклада Что мы решали с помощью
3. Графы везде Применяются во многих сферах:
4. Графовое хранилище
5. Решаемые задачи Загрузка графа Выполнение аналитической операции Догрузка новых данных, в случае их появления
6. Аналитические задачи Получить всех соседей вершины (Neighbors)
7. Neo4J Наиболее распространенная Развитое сообщество Высокая функциональность
8. Особенности Neo4J Все операции только внутри транзакции
9. BatchInserter Быстрый импорт НЕ отказоустойчивый НЕ потокобезопасный
10. Индексирование Новый метод schema.indexFor() – только по
11. Memory mapped cache Служит для ускорения I/O
12. Размеры объектов на диске Cache size = размер объекта * количество объектов
13. Настройки memory mapped cache use_memory_mapped_buffers mapped_memory nodestore.db.mapped_memory relationshipstore.db.mapped_memory propertystore.db.mapped_memory и т.д.
14. Object cache Хранит в себе объекты для
15. Типы Object cache
16. Sparksee (в прошлом DEX) Заявлена высокая производительность
17. Особенности Sparksee Обязательно задается схема данных Доступ к объекту только по внутреннему идентификатору
18. Настройки Sparksee Настройки ребер: Ориентированные Индексированные Типы атрибутов: Обычный Индексированный Уникальный
19. Sparksee cache Настройки кэширования минимальны Все новые
20. Тестовый стенд Intel Xeon E7540 2.0 GHz 64GB DDR3 2x2TB hard drive
21. ПО и настройки Neo4J Neo4J 2.1.5 Community
22. ПО и настройки Sparksee Sparksee 5.1.0 Unlimited
23. Время импорта данных (ч) Больше суток. Слишком долго!
24. Время обработки графа (с) ~10 миллионов вершин и ~100 миллионов ребер
25. Время обработки графа (с) ~50 миллионов вершин и ~500 миллионов ребер
26. Выводы Sparksee производительнее Neo4J Высокая производительность графовых
27. Спасибо за внимание!

Главная
Информатика
Как мы храним большой социальный граф

Слайд 1Как мы храним большой социальный граф
Бартенев Максим Норси-Транс

Слайд 2План доклада
Что мы решали с помощью графовых БД
Графовые БД Neo4J и

Sparksee
Настройка и оптимизация Neo4J и Sparksee
Каких результатов удалось достичь

Слайд 3Графы везде
Применяются во многих сферах:
веб-ссылки;
маршруты;
социальные сети;
и т.д.
Имеют очень большой

объем.
Сложность в анализе графа, а не в хранении.

Слайд 4Графовое хранилище

Слайд 5Решаемые задачи
Загрузка графа
Выполнение аналитической операции
Догрузка новых данных, в случае их

появления

Слайд 6Аналитические задачи
Получить всех соседей вершины (Neighbors)
Выполнить обход графа (BFS)
Найти кратчайший путь

(Shortest path)

Слайд 7Neo4J
Наиболее распространенная
Развитое сообщество
Высокая функциональность
Может быть как серверным приложением, так и встраиваемым
Есть

бесплатная версия

Слайд 8Особенности Neo4J
Все операции только внутри транзакции – правильно и надежно, но

медленно и ест много оперативной памяти.
Объекты – вершины, ребра и атрибуты. Доступ к ним только по внутреннему идентификатору.

Слайд 9BatchInserter
Быстрый импорт
НЕ отказоустойчивый
НЕ потокобезопасный

Слайд 10Индексирование
Новый метод schema.indexFor() – только по атрибутам на вершинах
Устаревший метод graphDb.index()

– и по вершинам и по ребрам
Индексация в режиме Batch inserter BatchInserterIndexProvider.nodeIndex()

Слайд 11Memory mapped cache
Служит для ускорения I/O
Проецирует файлы хранилища в память
Каждому файлу

свой кэш

Слайд 12Размеры объектов на диске
Cache size = размер объекта * количество объектов

Слайд 13Настройки memory mapped cache
use_memory_mapped_buffers
mapped_memory
nodestore.db.mapped_memory
relationshipstore.db.mapped_memory
propertystore.db.mapped_memory
и т.д.

Слайд 14Object cache
Хранит в себе объекты для быстрого доступа при обходах графа
Вытеснение

объектов осуществляет GC
Реально производительный кэш есть только в Enterprice версии

Слайд 15Типы Object cache

Слайд 16Sparksee (в прошлом DEX)
Заявлена высокая производительность
Только встраиваемая
Не столь распространенная
Сообщество очень маленькое
Полностью

закрытая
Бесплатна для исследований

Слайд 17Особенности Sparksee
Обязательно задается схема данных
Доступ к объекту только по внутреннему идентификатору

Слайд 18Настройки Sparksee
Настройки ребер:
Ориентированные
Индексированные
Типы атрибутов:
Обычный
Индексированный
Уникальный

Слайд 19Sparksee cache
Настройки кэширования минимальны
Все новые объекты попадают в кэш
SetCacheMaxSize(int megabytes)
Если megabytes

== 0, то используется вся свободная память минус 512mb.

Слайд 20Тестовый стенд
Intel Xeon E7540 2.0 GHz
64GB DDR3
2x2TB hard drive

Слайд 21ПО и настройки Neo4J
Neo4J 2.1.5 Community Edition
Ubuntu 14.04 LTS
JVM: -d64 –Xmx40G

-XX:+UseParallelGC
Batch insertion mode
Use_memory_mapped_buffers
Cache vertices 2GB, relationships 18GB

Слайд 22ПО и настройки Sparksee
Sparksee 5.1.0 Unlimited licence
Windows Server 2008 x64
.NET API
Cache

size 60GB

Слайд 23Время импорта данных (ч)
Больше суток.
Слишком долго!

Слайд 24Время обработки графа (с)
~10 миллионов вершин и ~100 миллионов ребер

Слайд 25Время обработки графа (с)
~50 миллионов вершин и ~500 миллионов ребер

Слайд 26Выводы
Sparksee производительнее Neo4J
Высокая производительность графовых БД ограничивается размером памяти
Графы размером больше

1 млрд вершин не получится обработать

Слайд 27Спасибо за внимание!

Скачать презентацию

Как мы храним большой социальный граф презентация

Содержание

Слайд 1Как мы храним большой социальный граф
Бартенев Максим Норси-Транс

Слайд 2План доклада
Что мы решали с помощью графовых БД
Графовые БД Neo4J и

Слайд 3Графы везде
Применяются во многих сферах:
веб-ссылки;
маршруты;
социальные сети;
и т.д.
Имеют очень большой

Слайд 4Графовое хранилище

Слайд 5Решаемые задачи
Загрузка графа
Выполнение аналитической операции
Догрузка новых данных, в случае их

Слайд 6Аналитические задачи
Получить всех соседей вершины (Neighbors)
Выполнить обход графа (BFS)
Найти кратчайший путь

Слайд 7Neo4J
Наиболее распространенная
Развитое сообщество
Высокая функциональность
Может быть как серверным приложением, так и встраиваемым
Есть

Слайд 8Особенности Neo4J
Все операции только внутри транзакции – правильно и надежно, но

Слайд 9BatchInserter
Быстрый импорт
НЕ отказоустойчивый
НЕ потокобезопасный

Слайд 10Индексирование
Новый метод schema.indexFor() – только по атрибутам на вершинах
Устаревший метод graphDb.index()

Слайд 11Memory mapped cache
Служит для ускорения I/O
Проецирует файлы хранилища в память
Каждому файлу

Слайд 12Размеры объектов на диске
Cache size = размер объекта * количество объектов

Слайд 13Настройки memory mapped cache
use_memory_mapped_buffers
mapped_memory
nodestore.db.mapped_memory
relationshipstore.db.mapped_memory
propertystore.db.mapped_memory
и т.д.

Слайд 14Object cache
Хранит в себе объекты для быстрого доступа при обходах графа
Вытеснение

Слайд 15Типы Object cache

Слайд 16Sparksee (в прошлом DEX)
Заявлена высокая производительность
Только встраиваемая
Не столь распространенная
Сообщество очень маленькое
Полностью

Слайд 17Особенности Sparksee
Обязательно задается схема данных
Доступ к объекту только по внутреннему идентификатору

Слайд 18Настройки Sparksee
Настройки ребер:
Ориентированные
Индексированные
Типы атрибутов:
Обычный
Индексированный
Уникальный

Слайд 19Sparksee cache
Настройки кэширования минимальны
Все новые объекты попадают в кэш
SetCacheMaxSize(int megabytes)
Если megabytes

Слайд 20Тестовый стенд
Intel Xeon E7540 2.0 GHz
64GB DDR3
2x2TB hard drive

Слайд 21ПО и настройки Neo4J
Neo4J 2.1.5 Community Edition
Ubuntu 14.04 LTS
JVM: -d64 –Xmx40G

Слайд 22ПО и настройки Sparksee
Sparksee 5.1.0 Unlimited licence
Windows Server 2008 x64
.NET API
Cache

Слайд 23Время импорта данных (ч)
Больше суток.
Слишком долго!

Слайд 24Время обработки графа (с)
~10 миллионов вершин и ~100 миллионов ребер

Слайд 25Время обработки графа (с)
~50 миллионов вершин и ~500 миллионов ребер

Слайд 26Выводы
Sparksee производительнее Neo4J
Высокая производительность графовых БД ограничивается размером памяти
Графы размером больше

Слайд 27Спасибо за внимание!

Обратная связь

Что такое ThePresentation.ru?

Как мы храним большой социальный граф презентация

Содержание

Слайд 1Как мы храним большой социальный графБартенев Максим Норси-Транс

Слайд 2План докладаЧто мы решали с помощью графовых БДГрафовые БД Neo4J и

Слайд 3Графы вездеПрименяются во многих сферах: веб-ссылки; маршруты;социальные сети;и т.д.Имеют очень большой

Слайд 4Графовое хранилище

Слайд 5Решаемые задачиЗагрузка графа Выполнение аналитической операцииДогрузка новых данных, в случае их

Слайд 6Аналитические задачиПолучить всех соседей вершины (Neighbors)Выполнить обход графа (BFS)Найти кратчайший путь

Слайд 7Neo4JНаиболее распространеннаяРазвитое сообществоВысокая функциональностьМожет быть как серверным приложением, так и встраиваемымЕсть

Слайд 8Особенности Neo4JВсе операции только внутри транзакции – правильно и надежно, но

Слайд 9BatchInserterБыстрый импортНЕ отказоустойчивыйНЕ потокобезопасный

Слайд 10ИндексированиеНовый метод schema.indexFor() – только по атрибутам на вершинахУстаревший метод graphDb.index()

Слайд 11Memory mapped cacheСлужит для ускорения I/OПроецирует файлы хранилища в памятьКаждому файлу

Слайд 12Размеры объектов на дискеCache size = размер объекта * количество объектов

Слайд 13Настройки memory mapped cacheuse_memory_mapped_buffersmapped_memorynodestore.db.mapped_memoryrelationshipstore.db.mapped_memorypropertystore.db.mapped_memoryи т.д.

Слайд 14Object cacheХранит в себе объекты для быстрого доступа при обходах графаВытеснение

Слайд 15Типы Object cache

Слайд 16Sparksee (в прошлом DEX)Заявлена высокая производительностьТолько встраиваемаяНе столь распространеннаяСообщество очень маленькоеПолностью

Слайд 17Особенности SparkseeОбязательно задается схема данныхДоступ к объекту только по внутреннему идентификатору

Слайд 18Настройки SparkseeНастройки ребер:ОриентированныеИндексированныеТипы атрибутов:ОбычныйИндексированныйУникальный

Слайд 19Sparksee cacheНастройки кэширования минимальныВсе новые объекты попадают в кэшSetCacheMaxSize(int megabytes)Если megabytes

Слайд 20Тестовый стендIntel Xeon E7540 2.0 GHz64GB DDR32x2TB hard drive

Слайд 21ПО и настройки Neo4JNeo4J 2.1.5 Community EditionUbuntu 14.04 LTSJVM: -d64 –Xmx40G

Слайд 22ПО и настройки SparkseeSparksee 5.1.0 Unlimited licenceWindows Server 2008 x64.NET APICache

Слайд 23Время импорта данных (ч)Больше суток.Слишком долго!

Слайд 24Время обработки графа (с)~10 миллионов вершин и ~100 миллионов ребер

Слайд 25Время обработки графа (с)~50 миллионов вершин и ~500 миллионов ребер

Слайд 26ВыводыSparksee производительнее Neo4JВысокая производительность графовых БД ограничивается размером памятиГрафы размером больше

Слайд 27Спасибо за внимание!

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 1Как мы храним большой социальный граф
Бартенев Максим Норси-Транс

Слайд 2План доклада
Что мы решали с помощью графовых БД
Графовые БД Neo4J и

Слайд 3Графы везде
Применяются во многих сферах:
веб-ссылки;
маршруты;
социальные сети;
и т.д.
Имеют очень большой

Слайд 5Решаемые задачи
Загрузка графа
Выполнение аналитической операции
Догрузка новых данных, в случае их

Слайд 6Аналитические задачи
Получить всех соседей вершины (Neighbors)
Выполнить обход графа (BFS)
Найти кратчайший путь

Слайд 7Neo4J
Наиболее распространенная
Развитое сообщество
Высокая функциональность
Может быть как серверным приложением, так и встраиваемым
Есть

Слайд 8Особенности Neo4J
Все операции только внутри транзакции – правильно и надежно, но

Слайд 9BatchInserter
Быстрый импорт
НЕ отказоустойчивый
НЕ потокобезопасный

Слайд 10Индексирование
Новый метод schema.indexFor() – только по атрибутам на вершинах
Устаревший метод graphDb.index()

Слайд 11Memory mapped cache
Служит для ускорения I/O
Проецирует файлы хранилища в память
Каждому файлу

Слайд 12Размеры объектов на диске
Cache size = размер объекта * количество объектов

Слайд 13Настройки memory mapped cache
use_memory_mapped_buffers
mapped_memory
nodestore.db.mapped_memory
relationshipstore.db.mapped_memory
propertystore.db.mapped_memory
и т.д.

Слайд 14Object cache
Хранит в себе объекты для быстрого доступа при обходах графа
Вытеснение

Слайд 16Sparksee (в прошлом DEX)
Заявлена высокая производительность
Только встраиваемая
Не столь распространенная
Сообщество очень маленькое
Полностью

Слайд 17Особенности Sparksee
Обязательно задается схема данных
Доступ к объекту только по внутреннему идентификатору

Слайд 18Настройки Sparksee
Настройки ребер:
Ориентированные
Индексированные
Типы атрибутов:
Обычный
Индексированный
Уникальный

Слайд 19Sparksee cache
Настройки кэширования минимальны
Все новые объекты попадают в кэш
SetCacheMaxSize(int megabytes)
Если megabytes

Слайд 20Тестовый стенд
Intel Xeon E7540 2.0 GHz
64GB DDR3
2x2TB hard drive

Слайд 21ПО и настройки Neo4J
Neo4J 2.1.5 Community Edition
Ubuntu 14.04 LTS
JVM: -d64 –Xmx40G

Слайд 22ПО и настройки Sparksee
Sparksee 5.1.0 Unlimited licence
Windows Server 2008 x64
.NET API
Cache

Слайд 23Время импорта данных (ч)
Больше суток.
Слишком долго!

Слайд 24Время обработки графа (с)
~10 миллионов вершин и ~100 миллионов ребер

Слайд 25Время обработки графа (с)
~50 миллионов вершин и ~500 миллионов ребер

Слайд 26Выводы
Sparksee производительнее Neo4J
Высокая производительность графовых БД ограничивается размером памяти
Графы размером больше