Аналитическая платформа - что это такое?
Даже самые мощные технологии извлечения закономерностей и машинного обучения, такие как Knowledge Discovery in Databases (KDD) и Data Mining не представляют особой ценности без инструментальной поддержки в виде соответствующего программного обеспечения. Этот рынок программных средств продолжает формироваться по настоящий день, однако уже можно выделить некоторые стандарты де-факто в этой области.
Программное обеспечение в области анализа данных
Рынок программного обеспечения KDD и Data Mining делится на несколько сегментов (рис. 1).
Рисунок 1 - Классификация ПО в области Data Mining и KDD*
Статистические пакеты с возможностями Data Mining и настольные Data Mining пакеты ориентированы в основном на профессиональных пользователей. Их отличительные особенности следующие:
- слабая интеграция с промышленными источниками данных;
- бедные средства очистки, предобработки и трансформации данных;
- отсутствие гибких возможностей консолидации информации, например, в специализированном хранилище данных;
- конвейерная (поточная) обработка новых данных затруднительна или реализуется встроенными языками программирования и требует высокой квалификации;
- из-за использования пакетов на локальных рабочих станциях обработка больших объемов данных затруднена.
Настольные Data Mining пакеты могут быть ориентированы на решение как всех классов задач Data Mining, так и только какого-либо одного, например, кластеризация или классификация.
Вместе с тем эти пакеты предоставляют богатые возможности в плане алгоритмов Data Mining, что достаточно для решения каких-либо исследовательских задач. Существует немало свободно распространяемых настольных пакетов Data Mining с открытыми исходными кодами.
Однако, создание эффективных прикладных решений промышленного уровня с помощью таких пакетов затруднено. Поэтому в бизнесе, как правило, используются СУБД с элементами Data Mining и аналитические платформы.
Аналитические платформы
В отличие от СУБД с набором алгоритмов Data Mining, аналитические платформы изначально ориентированы на анализ данных и предназначены для создания готовых аналитических решений.
Аналитическая платформа - это специализированное программное решение (или набор решений), которое содержит в себе все инструменты для осуществления процесса извлечения закономерностей из "сырых" данных: средства консолидации информации в едином источнике (хранилище данных), извлечение, преобразование, трансформацию данных, алгоритмы Data Mining, средства визуализации распространения результатов среди пользователей, а также возможности "конвейерной" обработки новых данных.
Поэтому в аналитической платформе, как правило, всегда присутствуют гибкие и развитые средства консолидации, включающие богатые интеграционные механизмы с промышленными источниками данных, инструменты очистки и преобразования структурированных данных и их последующее хранение в едином источнике в специальном многомерном виде - в хранилище данных. Модели, описывающие выявленные закономерности и правила, прогнозы также хранятся в специальном источнике данных - репозитарии моделей.
На рис. 2 изображен пример типовой схемы системы на базе аналитической платформы.
Рисунок 2 - Аналитическая платформа*
По материалам BaseGroup
Labs
* Рисунок принадлежит BaseGroup Labs