Опубликован: 20.12.2010 | Доступ: свободный | Студентов: 2413 / 166 | Оценка: 4.27 / 3.91 | Длительность: 39:39:00
ISBN: 978-5-9963-0353-3
Лекция 5:

Системы деловой осведомленности (Business Intelligence Systems) и хранилища данных

Построение систем бизнес-аналитики: проблемы и решения

Информационные технологии обеспечивают поддержку технологической цепочки обработки данных:

  • сбор и получение данных;
  • преобразование данных;
  • предоставление данных.

Получение данных обеспечивается автоматизированными системами оперативной обработки данных или транзакционными системами обработки данных. Основное назначение таких систем – это обеспечение развитой формы учета данных на низком уровне бизнес-процессов организации. Пользователями этих систем являются специалисты.

Чтобы использовать собранные данные для анализа, их нужно привести к единому формату, преобразовать, согласовать и предварительно обработать. Эту задачу предназначены решать системы извлечения, преобразования и загрузки данных. Это важное звено перехода к анализу данных.

Предоставление данных обеспечивается информационно-аналитическими системами обработки данных. Такие системы разрабатываются с использованием технологии ХД и методов бизнес-аналитики. Основное назначение таких систем – это обеспечение развитой формы публикации данных. Их пользователями являются менеджеры.

Каждый менеджер обучался аналитической работе, применял компьютер при обучении в школе и университете, в повседневной работе окружен компьютерами и требует данных для принятия решений.

Публикация данных для менеджеров является первостепенной задачей. Хорошо известно, что публикация является успешной, если она удовлетворяет потребности читателей. Своевременная и по возможности полная публикация данных является средой для поддержки и принятия решений.

Для менеджера важно, чтобы публикация была:

  • существенной для решения текущих бизнес-задач;
  • понятной и простой в использовании;
  • быстрой;
  • эффективной в соотношении "цена/качество".

Рассмотрим комплекс проблем и пути их возможного решения, с которыми приходится сталкиваться при построении систем бизнес-аналитики1Материал основан на материалах лекции "Построение BI-системы: задачи и решения", которую прочитал 15 мая 2007 года Ральф Кимбалл на конференции "Многомерное моделирование для BI-систем: простой и мощный подход", организованной московским представительством компании Sybase в конференц-зале московской гостиницы "Редиссон-Славянская". .

Данные, необходимые для принятия решений, являются недоступными

Первая проблема при создании систем бизнес-аналитики заключается в том, что в ХД оказываются недоступными данные, необходимые для принятия решений. Если в хранилище данных оказываются недоступными необходимые данные, нужно восполнить эту недостачу путем сбора бизнес-требований от конечных пользователей; изучения того, какая информация необходима бизнес-пользователям в процессе принятия решений; регулярных дискуссий с лицами, принимающими решения, для понимания новых требований; систематического исследования новых источников данных и метрик.

В связи с этой проблемой Ральф Кимбалл отмечает, что нельзя относиться к построению корпоративного ХД как к проекту, у которого имеется начало и конец. В действительности, построение ХД для системы бизнес-аналитики — это непрерывный процесс, который может закончиться только после отказа от построения ХД.

Отметим также, что на этот факт неоднократно указывали ряд исследователей в области построения ХД. Причиной такой точки зрения, скорее всего, является простое обстоятельство: бизнес-среда в современных экономических условиях может меняться очень быстро и динамично, что существенно влияет на потребности в данных.

Недостаток партнерских отношений между конечными пользователями и ИТ-специалистами

Вторая проблема при создании систем бизнес-аналитики заключается в недостатке партнерских отношений между конечными пользователями и специалистами в области ИT. Симптомами этой проблемы являются разочарование конечных пользователей имеющимся уровнем обслуживания; осуждение специалистами ИT конечных пользователей за их жалобы, компьютерную безграмотность и пренебрежение чтением документации; недооценка использования современных ИT руководством организации.

Как следствие, ХД не удовлетворяет потребности пользователей или работает слишком медленно, фактически, не используется пользователями. При этом отсутствуют административные решения, направленные на достижение согласия и исправление ситуации.

Общая идея решения этой проблемы: ИТ-персоналу необходимо жить в окружении бизнес-пользователей, чтобы лучше узнать специфику бизнеса компании и потребности ее заказчиков и завоевать доверие конечных пользователей.

Как показывает опыт, возникновение этой проблемы тесно связано с тем, что ИТ-специалисты при разработке автоматизированных систем не соблюдают требования соответствующих ГОСТов и не уделяют должного внимания разработке лингвистического и организационного обеспечения.

Отсутствие ясности у конечных пользователей

Третья проблема при создании систем бизнес-аналитики состоит в отсутствии явной познавательной и концептуальной модели конечных пользователей. Симптомом этой проблемы является выбор IT-специалистами инструментальных средств на основе бесед с потенциальными продавцами и знакомства с демонстрационными версиями без учета реальных потребностей пользователей.

IT-специалисты иной раз стремятся к сложным решениям и подразумевают, что конечным пользователям нравится работать на компьютерах. Но пользователи зарабатывают свои деньги за счет решения стоящих перед ними задач, и, возможно, рассматривают компьютер как средство, помогающее им решать эти задачи. Изучение и освоение новых программных продуктов не является их основной производственной задачей. До появления в организации новых программных продуктов бизнес-пользователи справлялись с решением своих задач и без них.

В качестве решения предлагается уточнение уровня познавательной и компьютерной грамотности конечных пользователей; построение концептуальной модели поведения пользователей при решении задач и принятии решений; выбор или настройка средств доставки информации, наилучшим образом соответствующих особенностям конечных пользователей.

Самый простой подход состоит в том, чтобы разделить пользователей на две категории – те, которые используют Excel, и те, которые считают электронные таблицы слишком сложными. Для первой категории нужно обеспечить возможность формулировки произвольных запросов, а вторым предоставить заранее подготовленные, может быть, параметризуемые отчеты.

Ральф Кимбалл предлагает простую модель оценки сложности программных инструментов:

Модель использования ХД в системах бизнес-аналитики для принятия решений

Рис. 4.5. Модель использования ХД в системах бизнес-аналитики для принятия решений

Правило применения этой модели очень просто. Оно исходит из двух логических предпосылок: "Каждое нажатие — это подцель при достижении цели" и "Каждое нажатие – это отвлечение, как неожиданный звонок телефона". Отсюда вытекает эмпирическое правило: "1-3 нажатия – хорошо; 4-8 нажатий – приемлемо; больше 8 нажатий – провал".

На рис. 4.5 показана простая модель использования ХД в системах бизнес-аналитики для принятия решений.

Как видно из рисунка, модель включает в себя отражение следующих бизнес-процессов принятия решений:

  • публикация "правильных" данных;
  • сравнение, определение пороговых значений, предупреждение и визуализация для идентификации;
  • исследование и поиск причинно-следственных связей;
  • выдвижение гипотез и исследование альтернатив по схеме "Что будет, если…";
  • аудит и отслеживание принимаемых решений.

Данные, необходимые для принятия решения, поступают с задержкой

Четвертая проблема при создании систем бизнес-аналитики заключается в запаздывании данных, требуемых для принятия решений. Симптомом является потребность в данных в реальном времени. Здесь под требованиями "реального времени" понимаются любые требования к временным характеристикам данных, которые не могут быть удовлетворены действующей процедурой ETL.

Одно из возможных решений заключается в изменении процедуры ETL (Extraction, Transformation, Loading) за счет использования готовых инструментов извлечения данных, например, сообщений EAI (Enterprise Application Integration). Для быстрого удовлетворения потребностей пользователей можно связывать "горячие" разделы таблицы фактов со статическим ХД, не дожидаясь обновления таблиц измерений.

Несогласованные измерения и факты. Победите интеграцию

Пятая проблема при создании систем бизнес-аналитики состоит в том, что интеграции корпоративных данных препятствуют не сведенные к единой форме факты и измерения. Топ-менеджерам требуется всестороннее представление данных, а его невозможно получить, потому что в разных подразделениях данные представляются по-разному. В качестве решения предлагается при проектировании витрин данных использовать шинную матрицу для согласования данных. Как подчеркивает Ральф Кимбалл, это решение является не столько техническим, сколько организационным.

Недостаточно подробные данные: невыразительная система бизнес-аналитики

Шестой проблемой при создании систем бизнес-аналитики является недостаточная подробность (гранулированность) данных, результатом чего становится невыразительная система бизнес-аналитики. Симптомом является недостаточное число атрибутов у данных измерений. Предлагается постоянно стремиться к повышению выразительности данных, а для создания содержательного контекста данных использовать вспомогательные источники данных.

Данные в неудобных форматах

Седьмую проблему при создании систем бизнес-аналитики представляют неудобные форматы данных. По Ральфу Кимбаллу, неудобной является нормализованная форма реляционных данных. Симптомами проблемы, кроме этого, могут быть запутанность и запуганность пользователей, сложность формулировки запросов, сложные процедуры ETL, потребность в специализированном оборудовании для достижения требуемой производительности.

Одним из возможных решений является представление данных в многомерной модели. Это представление соответствует пользовательской интуиции, облегчает формулировку запросов, упрощает процедуру ETL и позволяет добиться нужного уровня производительности на обычной аппаратуре.

Медленная, не адаптированная для пользователей доставка данных

Восьмая проблема при создании систем бизнес-аналитики состоит в слишком медленной доставке данных конечным пользователям. Данные не поступают в оперативном режиме, пользователи остерегаются задавать медленно выполняемые запросы, имеются количественные ограничения на использование данных.

Решением этой проблемы является тщательное проектирование БД, создание многомерных моделей данных, подбор качественных программных средств СУБД с развитыми механизмами индексации, оснащение компьютеров основной памятью большого объема, использование распараллеливания, применение компьютеров с быстрыми центральными процессорами.

Данные закрыты в отчете или информационной панели

Девятая проблема при создании систем бизнес-аналитики проявляется в том, что некоторые данные оказываются "запертыми" в каком-то приложении и их невозможно переместить оттуда в другое приложение простым образом. Выходом из положения является использование только таких приложений, для которых возможно копирование данных в электронную таблицу через буфер обмена с помощью одного нажатия на клавишу мыши.

Низкое качество данных

Десятая проблема при создании систем бизнес-аналитики связана с низким качеством данных. Симптомами проблемы являются отсутствие содержательных данных, наличие ненадежных или бессмысленных данных, присутствие дублирующих или несогласованных записей (чаще всего такие записи относятся к заказчикам компании). В качестве решения проблемы предлагается расширить используемые средства ETL системой экранов качества данных. В многомерной модели данных для фиксации ошибок в данных создается схемы событий с ошибками (Error Event Schema) — таблица фактов со своими измерениями. На основе этой таблицы порождаются измерения аудита данных для других таблиц фактов, и эти измерения могут использоваться при формировании отчетов, в которых учитываются ненадежные данные.

Преждевременно агрегированные данные

Одиннадцатая проблема при создании систем бизнес-аналитики состоит в преждевременной агрегации данных. Наличие в многомерной модели агрегированных данных без соответствующих атомарных данных не позволяет проводить детализацию данных. Рекомендуемым решением проблемы является поддержка для витрин данных физических структур хранения, содержащих атомарные данные. Детализация данных поддерживается за счет агрегатной навигации [2].

Отвлечение и фокусировка на показателе ROI для ХД

Двенадцатой проблемой при создании систем бизнес-аналитики Ральф Кимбалл считает отвлечение внимания на оценку показателей возврата инвестиций (ROI) ХД. Симптомами этой проблемы является расчет показателей ROI до создания ХД с применением стандартных методов, основанных на периоде окупаемости, чистой приведенной стоимости, внутренней норме прибыли, системе сбалансированных показателей, экономической добавленной стоимости. По его мнению, во всех этих методах упускается основной смысл стоимости и в конечном счете – ценности ХД.

ХД поддерживает принятие решений. Рекомендуется после принятия решения отнести часть полученной прибыли на счет ХД, а затем сравнить ее с расходами на ХД. Ральф Кимбалл рекомендует считать, что 20% прибыли, полученной в результате принятия решения, получено благодаря использованию ХД. Такой подход соответствует той идее, что единственным осмысленным способом оценки эффективности ХД является оценка его возможности поддерживать принятие решений конечными пользователями.

Отвлечение на создание корпоративной модели данных

Тринадцатая проблема при создании систем бизнес-аналитики состоит в затрате сил и времени на создание корпоративной модели данных. Симптомом является появление большого количества сущностей, которые никогда не наполняются реальными данными. Ральф Кимбалл считает, что усилия, затрачиваемые на разработку корпоративной модели данных, только задерживают работу над ХД, и расчет делается на то, что при выполнении процедуры ETL будут выявляться ошибки и несоответствие данных.

Отметим, что решение о разработке корпоративной модели данных действительно требует больших интеллектуальных затрат и времени на ее создание. Может оказаться, что модель устареет к моменту ввода ее в эксплуатацию. Исследователями по ИТ предлагаются различные подходы к созданию актуальной корпоративной модели.

Мандат на получение всех данных

Четырнадцатой проблемой при создании систем бизнес-аналитики Ральф Кимбалл считает возможное требование использовать все источники данных для наполнения ХД. В соответствии с его опытом если при построении ХД выдвигается требование использования трех или более источников данных, то ХД не заработает и через два года. На первом этапе построения ХД рекомендуется потратить шесть недель на полноценный аудит данных, а затем выбрать один источник данных, который, во-первых, влияет на наиболее важные решения конечных пользователей, и во-вторых, проще всего подключается к процедуре ETL. После заполнения ХД из первого источника следует оценить полученный результат и обдумать следующие шаги.

Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?