Интеллектуальный анализ данных (data mining) – это процесс получения и дальнейшее применение знаний или ранее неизвестной информации из уже имеющихся доступных данных. Под этим понятием скрывается широкое разнообразие технологий и процессов, при помощи которых входные "сырые" данные обрабатываются, очищаются и анализируются. Благодаря бесспорному значению анализа данных, в частности, для торговли, возрастает популярность и частота использования подобного рода решений.
Информацию, полученную посредством интеллектуального анализа данных, можно включить в уже существующие IT-инфраструктуры, которые с учетом необходимости можно сделать более доступными для сотрудников всех уровней организационной структуры предприятия (например, менеджмента, операторов колл-центров, служащих занимающихся оформлением заявлений на кредит, и т.д.).
Мы очень коротко рассмотрим хотя бы несколько известных областей, в которых интеллектуальный анализ данных применяется весьма успешно.
Маркетинг
Приблизительная оценка вероятности определенного поведения заказчика.
Для оптимального "прицеливания и попадания" прямой рекламной кампании необычайно ценным является анализ вероятности реагирования данного заказчика на конкретное предложение. При помощи методов интеллектуального анализа данных такую вероятность можно оценить на основании сравнения доступных данных о том, как проходили предыдущие кампании. Располагая такой информацией, можно снизить на десятки процентов расходы на рекламную кампанию, которую вы намереваетесь организовать, сохранив при этом ее эффективность.
Сегментация заказчиков
Во многих крупных фирмах очевидным является тот факт, что 90% оборота фирмы составляют 10% ее самых постоянных и ведущих заказчиков. Такая основная форма сегментации в соответствии с выбранными параметрами (в данном случае это сумма оборота) становится возможной благодаря применяемым аналитическим инструментам. Сегментация при помощи метода интеллектуального анализа данных предоставляет возможность найти и идентифицировать сегменты "поперек" в соответствии с десятками атрибутов базы данных заказчиков. Работа по маркетингу с отдельными частичными сегментами впоследствии оказывается существенно более эффективной, чем работа с комплексной базой данных.
Анализ закупочной корзины
Идентификация поведения потребителя. Анализируя данные с мест продажи, например, данные терминалов по продаже или сетевых журналов интернет-магазинов, можно оценить поведение заказчиков при совершении покупок. Наличие такой информации помогает более эффективно организовать торговлю на местах или наилучшим образом составить электронный каталог.
Менеджмент, связанный с оттоком клиентов
Предотвращение потенциального перехода заказчика к конкурентам.
На основании анализа известной вам ранее модели поведения заказчиков, которые перешли к конкурентам, можно спрогнозировать модели поведения, которые предшествовали переходу к конкурентам. Расходы по удержанию заказчика, существующего на сегодняшний день, будут существенно ниже, чем расходы по приобретению нового заказчика. С заказчиком, для которого идентифицируются такие типичные образцы поведения, впоследствии можно целенаправленно работать таким образом, чтобы можно было избежать его перехода к конкурентам.
Управление рисками, разоблачение мошенничества
Предположительная оценка кредитного риска.
При помощи анализа предшествующих данных можно создать модели, которые идентифицируют потенциальный риск для кредита и степень такого риска на основании демографических данных и другой доступной информации.
Идентификация "потенциального мошенника".
На основании анализа поведения заказчиков, для которых уже были зафиксированы факты мошенничества или его попытки, можно создать модели поведения такого заказчика. Применяя созданную модель к доступным данным, можно идентифицировать потенциальную аферу.
Управление производством, менеджмент качества
Путем анализа данных автоматизированного производства и отклонений от него можно идентифицировать проблемы на этапах производства как с точки зрения качества, так и с точки зрения сохранения темпа производства. На основании такой установленной информации можно, например, в производственный процесс ввести этап дополнительного контроля, благодаря которому уже в процессе производства будут выявлены разработанные изделия, которые после окончания производственного процесса не пройдут выходной контроль.
Процесс интеллектуального анализа данных
Процесс интеллектуального анализа данных, который столь успешно применяется в настоящее время во многих фирмах, можно разделить на следующие этапы:
Определение проблемы – первым шагом процесса является четкое определение проблемы с точки зрения торговли. Успешный интеллектуальный анализ данных всегда начинается с четкой постановки задачи, очевидными должны быть заказчик задание и цель задания.
Определение цели в терминологии доступных данных – надо установить источники данных, необходимых для выполнения задания.
Подготовка данных – как правило, это самая продолжительная часть каждого проекта интеллектуального анализа данных. Этот этап включает в себя консолидацию данных из источников данных, очистку данных и их подготовку в форме структуры, приемлемой для интеллектуального анализа данных. Этот этап, бесспорно, важен для общего успеха проекта – окончательные модели будут полезными в той же степени, в какой являются полезными данные, использованные для их создания.
Выбор и создание модели – этот этап включает в себя выбор и окончательное использование основных статистических инструментов для создания и параметризации математических моделей. Используемая модель выбирается в соответствии с целями проекта интеллектуального анализа данных. На основании входных данных параметры оптимизируются таким образом, чтобы модель самым лучшим образом отображала поведение неизвестных данных.
Применение модели – процесс, при котором все выбранные модели служат дополнением к структуре информационных технологий (IT) компании и к процессам, проходящим внутри предприятия с тем, чтобы они могли быть использованы для улучшения эффективности процесса продаж.
Интерпретация и использование результатов – этот этап включает использование рабочих моделей для достижения цели, определенной при постановке задачи проекта.
Включение интеллектуального анализа данных в IT-структуру
Процесс включения интеллектуального анализа данных в информационную структуру предприятия зависит от поставщиков конкретной технологии. Можно сказать, что в любом случае наиболее удобно проводить интеллектуальный анализ данных над существующим составом склада данных. Если проводить анализ данных в первичных системах, то в результате существенно осложняется и увеличивается продолжительность этапа подготовки и очистки данных.
Техническая архитектура для интеллектуального анализа данных специфична для отдельных поставщиков этих решений. Можно выделить две основные модели архитектуры:
Раздельный сервер интеллектуального анализа данных – в данном устройстве сервер интеллектуального анализа данных физически и технологически отделен от остальных серверов компании. Перед собственно обработкой данных на сервере интеллектуального анализа данных необходимо все обрабатываемые данные скопировать на этот сервер.
Интегрированный сервер интеллектуального анализа данных - в данном устройстве сервер технологически интегрирован в единое пространство с массивом данных, сервером для OLAP анализа и, по возможности, с частью первичной системы. Таким образом, упрощается управление сервером интеллектуального анализа данных и обеспечение процессов подачи данных. Но такой вариант все же сужает выбор возможных поставщиков решения.
Презентационный этап решения на основе интеллектуального анализа данных, как правило, включает разные варианты доставки информации – продуктов интеллектуального анализа данных целевому потребителю. Такая информация может быть включена в рабочие системы. Потребитель, кроме информации о предыдущем поведении заказчика при совершении покупки, имеет в распоряжении и вероятностную модель его дальнейшего поведения в роли покупателя. Другой формой презентации могут быть систематические отчеты, например, о потенциально проблематичных договорах или заказчиках. Использование такой информации в дальнейшем само собой подразумевает, что внутренняя работа фирмы будет происходить обычным образом.
Настоящее и будущее интеллектуального анализа данных
Учитывая современное состояние и пути развития решений для интеллектуального анализа данных, можно спрогнозировать несколько тенденций на будущее.
Расширение. Так же, как и для баз данных в недавнем прошлом, можно постоянно расширять слои общества, которые используют процессы интеллектуального анализа данных. И этим однозначно подтверждается факт, что эффективное использование полученных данных представляет для фирм значительную выгоду в процессе конкуренции. Технические средства для интеллектуального анализа данных постоянно дешевеют, становясь более доступными.
Все вышесказанное дает повод надеяться, что эти решения постепенно будут внедряться не только в крупных компаниях, но и в компаниях среднего и малого бизнеса.
Углубление. Как правило, технологии для интеллектуального анализа данных в рамках фирмы проходят испытания в пилотном проекте. В тех компаниях, где решения уже реализованы и используются, они постепенно распространяются далее на другие области деятельности.
Появление новых направлений. После окончательного утверждения интеллектуального анализа данных в маркетинге, банковском деле, телекоммуникациях, наблюдается постепенное проникновение технологий интеллектуального анализа данных в другие отрасли. Стоит также вспомнить о том, что, например, этот метод можно использовать в медицине, биохимии, генетике и многих других сферах деятельности современного общества.
Автор статьи является сотрудником Sophia Solutions