Обзор технологии сбора и хранения данных - Озеро данных презентация

Содержание

Содержание Что такое Озеро данных Архитектура Озера данных Для кого Озеро данных? Cloud vs. On-Premise Озеро данных. Практические советы Прототип Озера данных

Слайд 1Обзор технологии сбора и хранения данных - Озеро данных
Август, 2017


Слайд 2Содержание
Что такое Озеро данных
Архитектура Озера данных
Для кого Озеро данных?
Cloud vs. On-Premise
Озеро

данных. Практические советы
Прототип Озера данных

Слайд 3Что такое Озеро данных


Слайд 4История термина
Впервые употребил Джеймс Диксон – главный технолог Pentaho* в противовес

понятию «витрина данных», соответствующему средствам и представлениям для отображения набора интересующих пользователя атрибутов (признаков), извлекаемых из первичных данных
Утверждал, что «витрины данных» порождают ряд неустранимых проблем (например, информационные бункеры), и продвигал идею озёр данных как альтернативу
«Если вы представляете себе витрину магазина по торговле бутилированной водой – очищенной и расфасованной для простоты употребления – озёра данных представляют собой огромные массы воды в её более натуральном состоянии»**

Что такое Озеро данных

*Pentaho – компания, занимающаяся бизнес-аналитикой (BI). Разрабатывает и поставляет продукты на основе открытого исходного кода. Основные направления деятельности: интеграция данных, сервисы OLAP, генераторы отчётов, средства визуализации и представления информации (information dashboards), средства извлечения, преобразования и загрузки данных (ETL). Основана в 2004 году со штаб-квартирой в Орландо (США, Флорида). Поглощена в 2015 году компанией Hitachi Data Systems.
** Dixon, James. "Pentaho, Hadoop, and Data Lakes". James Dixon’s Blog. James. Retrieved 7 November 2015.


Слайд 5Определение, которого нет…
Озеро данных (англ. Data Lake) –репозиторий, в котором хранится

очень большое количество необработанных данных в их первоначальном виде
Принципы
Все данные имеют ценность (сейчас или в будущем)
Храним столь долго, сколько нужно
Если ценность в будущем – храним в том виде, в котором есть
Преобразовываем только тогда, когда возникает необходимость
Приложения и пользователи интерпретируют данные по собственному усмотрению

Что такое Озеро данных


Слайд 6Как работает Хранилище данных
Прием только структурированных данных
Извлечение (E), преобразование (T) к

требуемым форматам и загрузка (L) структурированных данных в централизованное хранилище выполняется как непрерывный процесс в отношении каждой порции данных

Что такое Озеро данных


Слайд 7Как работает Озеро данных
Не обязательный прием только структурированных данных
Разнесение по времени

операций обслуживания данных
Преобразование (T) данных не является шагом препроцессинга, а превращается в «постпроцессинг по запросу»
Резкое снижение требований к инфраструктуре в части скорости обработки информации «на транзите» (что характерно для непрерывной ETL-схемы)

Что такое Озеро данных


Слайд 8Сравнение свойств и особенностей
Что такое Озеро данных


Слайд 9Функциональные отличия
Что такое Озеро данных


Слайд 10Таким образом, Озеро данных…
Дальнейшее развитие корпоративного ландшафта данных
Шаг в сторону повышения

гибкости работы с данными различной природы, а также снятия существующих ограничений на объёмы и форматы хранения.
Использование распределённых хранилищ и распределённой обработки данных при повсеместном доступе к информационным услугам
Формируют фокус на облачные сервисы в плане реализации и эксплуатации корпоративных решений

Что такое Озеро данных


Слайд 11На что обратить внимание при создании
Не превращать в «болото» Целесообразно сразу организовывать

пространство для хранения и размещать данные по категориям. Увеличение скорости поиска и использования данных
Безопасность Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной задачей
Инструменты работы с озером – аналитикам Развитые инструменты для исследования, профилирования и получения ответов на запросы к Озеру Данных. Инструменты формирования запросов и представления информации должны быть рассчитаны на применение бизнес-правил, а не программируемых процедур
Поддержка доверия Исчерпывающим образом фиксировать происхождение данных. Внимание к составу, структуре и качеству метаданных
Минимальная стоимость хранения Данные должны храниться неопределённо долго, но с минимальными издержками. Уделять внимание методам компактизации данных без потери существенной части информации

Что такое Озеро данных


Слайд 12Архитектура Озера данных
Уровни Озера данных


Слайд 13Уровни Озера данных
Основной принцип – локализовать специфические функции работы с данными

в пределах одного уровня, обмен командами и пакетами данных в рамках стандартных протоколов
Преимущества:
Независимость разработки отдельных компонент
Возможность плавной замены версий программного обеспечения
Упрощение управления и сопровождения всей конструкции на протяжении жизненного цикла
Пользовательские запросы отрабатываются уровнями последовательно, сверху вниз

Архитектура Озера данных


Слайд 14Уровень сбора
Различные источники, различные форматы, различные процедуры сбора
Идентификация данных с помощью

метаданных (источник, формат, время, способ получения) на всем жизненном цикле
Идентификация источника с помощью НСИ
Пакетный или потоковый режим сбора данных
Соотнесение данных с контекстом (партия продукции, этап бизнес-процесса,..) для последующего более глубокого анализа

Архитектура Озера данных


Слайд 15Уровень хранения
Размещение, хранение, поиск, перемещение и выборка данных по запросам, поступающим

от смежных уровней: нижележащего уровня сбора данных и вышележащего уровня представления данных
Анализ частоты обращения к данным (анализ востребованности) и перемещение данных в соответствии с их востребованностью между различными хранилищами (ONLINE, NEARLINE и OFFLINE)
Автоматизированный поиск и локализация невостребованных данных с подготовкой перечней данных, подлежащих уничтожению на основании заданных критериев
Взаимодействие с корпоративным архивом данных для своевременного и полного перемещения в архив данных, не подлежащих уничтожению
Организация распределённого хранения данных (облачного хранения), обеспечивающая одинаковую актуальность и достоверность данных, независимо от того, из какой точки поступают запросы на размещение и представление информации

Архитектура Озера данных


Слайд 16Уровень предоставления
Два аспекта предоставления данных пользователям: во-первых, надо знать, что предоставлять,

а во-вторых – как предоставлять.
На вопрос «что?» отвечают механизмы Магазина данных, на вопрос «как?» - механизмы Магазина представлений
Интерпретатор данных связывает результаты поиска со схемой обработки (подготовки) данных – выполняются необходимые упорядочения, идентификации, выборки, преобразования и слияния данных
Магазин данных хранит типовые схемы подготовки данных
Магазин представлений хранит различные способы представлений данных для их последующего использования

Архитектура Озера данных


Слайд 17Для кого Озеро данных?
Роли пользователей


Слайд 18Для кого Озеро данных?
Описывает источники (включая создание типовых шаблонов метаданных и

привязки этих шаблонов к источникам данных)
Загружает данные в Озеро (вручную, автоматически и полуавтоматически)
Описание форматов загружаемых данных
Верификация результатов загрузки

Доступ к данным Озера в пределах области интересов и набора применяемых политик безопасности
Формирование статических выборок и динамических потоков данных, выполнять их слияние, применение к полученным наборам данных аналитических методов
Не может выполнять выгрузку данных из Озера в отчуждаемые файлы либо направляемые вовне потоки

Доступ ко всем метаданным
Редактирование метаданных
Переформатирование данных (создание новых наборов данных из имеющихся)
Не должен изменять саму нормативно-справочную информацию
Не должен иметь доступ к значениям по всему массиву данных (использует для отладки правил только модельные выборки данных небольшого объёма)

Поставщик

Исследователь

Администратор


Слайд 19Cloud vs. On-Premise
Преимущества использования облачных решений


Слайд 20Что такое облачное решение?
Облачное решение – предоставление IT-ресурсов и приложений по

запросу через Интернет, по модели «плати только за то, что потребил»
Обеспечивается быстрый доступ к разнообразным, гибким и относительно недорогим ИТ-ресурсам
Нет необходимости делать значительные инвестиции в собственную инфраструктуру и тратить много времени на её обслуживание
Приобретается ровно столько ресурсов, сколько необходимо в данный момент

Cloud vs. On-Premise


Слайд 21Каковы преимущества облачных решений?
Возможность быстро реконфигурировать окружение, чтобы адаптироваться к новым

требованиям и при этом оптимизировать затраты
Мощности могут быть автоматически масштабированы вверх или вниз, чтобы соответствовать изменяющимся моделям использования
Сервисы могут быть выключены или приостановлены, в соответствии с потребностями
«Платишь за то, что потребляешь» - это значит капитальные расходы можно заменить на операционные

Cloud vs. On-Premise


Слайд 22Каковы недостатки облачных решений?
Возможность быстро реконфигурировать окружение, чтобы адаптироваться к новым

требованиям и при этом оптимизировать затраты
Мощности могут быть автоматически масштабированы вверх или вниз, чтобы соответствовать изменяющимся моделям использования
Сервисы могут быть выключены или приостановлены, в соответствии с потребностями
«Платишь за то, что потребляешь» - это значит капитальные расходы можно заменить на операционные

Cloud vs. On-Premise


Слайд 231. Операционные расходы вместо капитальных
Вместо того, чтобы усиленно вкладывать в датацентры

и серверы пока даже не знаешь как собираешься их использовать, можно платить только за то что необходимо

Cloud vs. On-Premise. Преимущества


Слайд 242. Эффект масштаба
Организация может сэкономить от эффекта масштаба
Используя облачную среду вы

достигаете переменных издержек ниже чем могли бы достичь сами
Так как использование от сотен и тысяч клиентов агрегируется в облаке, провайдер может достичь большей экономии на масштабе, которая транслируется в низкие цены для клиентов

Cloud vs. On-Premise. Преимущества


Слайд 253. Хватит угадывать плановые мощности!
Когда вы принимаете решение о необходимой мощности

до развёртывания приложения, обычно это кончается тем, что вы сидите на куче избыточной мощности или сталкиваетесь с её недостатком
В облачной среде вы всегда получаете столько мощностей, сколько необходимо и не платите за избыток или недостаток
Изменение мощности – минутное дело

Cloud vs. On-Premise. Преимущества


Слайд 264. Увеличение скорости и гибкости
Работа в облаке значительно увеличивает скорость

работы и гибкость организации
Снижается стоимость и время необходимое на разработку, эксперименты, тестирование

Cloud vs. On-Premise. Преимущества


Слайд 275. Запуск систем в продуктив за минуты
За несколько кликов можно

развернуть сложные системы. Подготовка таких систем в собственном ЦОД, монтаж, настройка, заняли бы месяцы. В любом случае в собственном датацентре невозможно достичь той надежности, что получается в распределенных ЦОД

Cloud vs. On-Premise. Преимущества


Слайд 286. Фокус на основном бизнесе
Cloud computing позволяет организациям сфокусироваться на

приоритетах собственного бизнеса, вместо того, чтобы думать о монтаже, наращивании и электропитании серверов

Cloud vs. On-Premise. Преимущества


Слайд 29Преимущества облачных решений
Cloud vs. On-Premise


Слайд 30Что может сдерживать от перехода в облака
Полное отсутствие или низкая скорость

канала интернет
Требования к миллисекундной производительности
Бизнес-приложения в основном остаются On-Premise
Собственный ЦОД новым оборудованием
Большая часть данных рождается в периметре компании
Значительные расходы на миграцию в облако по сравнению со сроком жизни данных
Конфиденциальность данных
Корпоративные политики, запрещающие выводить данные за периметр компании
Риск перехвата данных «на пути в/из облака»
Риск соседства в облаке с данными конкурента

Cloud vs. On-Premise


Слайд 31А можно ли комбинировать?
Действительно, некоторые данные не могут быть перенесены в

облако
Но все остальные – могут!
Озеро данных может быть комбинированным

Cloud vs. On-Premise


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика