Big Data - хранение и анализ больших данных

Компоненты решения Big Data

Современное Big Data решение состоит из нескольких блоков, требующих совместной работы команд с разными компетенциями и интеграции набора Open-source и проприетарных программных компонентов:

1. Техническое решение по сбору, хранению и обработке больших объемов данных, обозначенное на схеме как Big Data Tools. Такое решение, как правило, строится на основе стека Hadoop, так как он представляет хороший баланс между стоимостью, надёжностью и функциональностью.

2. Продвинутый анализ данных с использованием методов науки о данных (Data Science) и алгоритмов машинного обучения

3. Визуализация больших данных, а также создание интерактивных отчетов для руководства компании, сотрудников и клиентов (Business Intelligence). При этом используемая аналитическая платформа должна быть совместима со стеком Hadoop

Интеграция платформы Visiology со стеком Big Data

Big Data решения строятся на базе open-source технологического стека Hadoop. Для решения задач визуализации, моделирования и интерактивного анализа данных в такие решения интегрируется аналитическая платформа Visiology. Также возможна интеграция с уже существующими системами Big Data.

Сборка решения Hadoop требует глубокой экспертизы. Специалисты Polymedia обладают необходимыми знаниями для построения оптимальной архитектуры аналитического Big Data решения и используют следующие технологии, обеспечивающие работу в реальном масштабе времени в условиях предприятия:

1. Многоуровневая сегментация данных. Например, самый часто востребованный, но относительно небольшой объем данных хранится в In-Memory базе данных ViQube платформы Visiology, а полный объем данных — в HDFS.

2. Кэширование на различных уровнях системы.

3. λ-архитектура для обеспечения обновления всех уровней данных в реальном времени.

На схеме ниже изображен один из вариантов технической интеграции средств стека Hadoop и платформы Visiology.

Продвинутый анализ данных и моделирование с использованием
методов Data Science

В штат Visiology входит команда высококвалифицированных математиков, имеющих опыт реализации сложных проектов в области промышленности, госуправления, финансов и других сфер деятельности с помощью инструментов Data Science.

Инструменты Data Science — это компьютерные методы и алгоритмы, позволяющие применить разделы математической статистики, теории вероятностей, численных методов оптимизации дискретного анализа для выделения знаний из данных.

• Метрические методы классификации и регрессии
• Логические методы классификации
• Критерии выбора моделей и методы отбора признаков
• Градиентные методы обучения
• Метод опорных векторов
• Многомерная линейная регрессия
• Нелинейная регрессия
• Прогнозирование временных рядов
• Байесовская теория классификации
• Логистическая регрессия. Разделение смеси распределений

• Кластеризация
• Нейронные сети
• Линейные композиции, бустинг
• Эвристические, стохастические, нелинейные композиции
• Ранжирование
• Поиск ассоциативных правил
• Задачи с частичным обучением
• Коллаборативная фильтрация
• Тематическое моделирование
• Обучение с подкреплением

С помощью методов Data Science можно оптимизировать производственные процессы без значительных капитальных затрат. Важной особенностью проектов Data Science является исследовательский характер, до проведения серьезного аудита данных невозможно дать точное заключение о достижимости тех или иных бизнес-целей. Для решения этой проблемы Visiology предлагает подход, позволяющий максимально снизить риски клиента, который сформирован в соответствии со следующими принципами.