Компания IBM объявила, что направит 3500 исследователей работать над проектом Apache Spark, который является проектом с открытым кодом, предназначенным для обработки “больших данных”.
Для усиления компоненты машинного обучения “голубой гигант” передаст в свободное пользование свою технологию SystemML. Саму систему Apache Spark специалисты IBM провозглашают операционной системой для аналитики.
Леонид Делицын, аналитик инвестиционного холдинга ФИНАМ
IBM ещё со времён Луиса Герстнера развернулась от производства высокотехнологичных закрытых решений к сервисам. В конце концов продукт (включая и “железо”) всегда будет выгоднее делать там, где концентрируется дешёвая рабочая сила. Сейчас это Восточная и Юго-Восточная Азия. А любой сколько-либо ценный софт с достаточно широким кругом пользователей сегодня воспроизводится и улучшается энтузиастами-программистами под той или иной открытой лицензией. С другой стороны, зарабатывать на сервисах можно глобально, обучая инженеров-внедренцев или предоставляя лицензии.
Сервис Apache Spark (sparc.apache.org) ставит целью превзойти популярную технологию MapReduce по скорости в десятки раз. На сайте демонстрируется 100-кратное превосходство над MapReduce при вычислении логистической регрессии на кластерах с использованием только оперативной памяти, и 10-кратное при использовании жестких дисков. В проекте участвует более 400 разработчиков из 50 компаний.
Под аналитикой при работе с большими данными сегодня подразумевают преимущественно операции, наподобие вычисления разного рода описательной статистики (вычисление средних, максимальных и минимальных значений и проч.) Рассчитывать что-либо более на гигантских объёмах данных - это уже конкретное приложение, которое разрабатывается для конкретных случаев исследователями, а потом реализуется при помощи технологий обработки больших данных. Логистическая регрессия заслужила звание “рабочей лошади” машинного обучения, поскольку теоретически довольно проста и используется уже несколько десятилетий, так что привычна, и ее результаты вызывают доверие заказчиков из самых разнообразных индустрий.
Пока неясно, что подразумевается под направлением в колхозы больших данных 3500 исследователей. Неясно, идёт ли речь о уже работающих сотрудниках, или компания намерена обучить тысячи таких специалистов. По крайней мере на странице проекта SystemML находятся только семь фотографий сотрудников рабочей группы проекта. На странице, посвящённой всему направлению Knowledge Discovery and Data Mining более трёхсот фотографий, но и это – лишь десятая часть требуемого количества. Скорее всего, речь идёт о том, что и эти, и другие сотрудники IBM должны будут теперь ориентироваться на Apache Spark, как на основную платформу для решений в области Big Data.
Кроме того, IBM намерена обучить ещё тысячи специалистов из компаний-клиентов разрабатывать решения для обработки Big Data, с прицелом на данные, поступающие от m2m (т.е. измеренные в реальном времени миллионами устройств, наподобие счётчиков горячей и холодной воды) на платформе Apache Spark. При этом компания будет взаимодействовать с Databrics – коммерческой структурой, уже внедряющей Apache Spark.