«Большие данные»: как из мухи делают слона

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?
16 сентября 2014, в 13:39
Страница

«Большие данные», о необходимости которых все время говорили аналитики, стали фикцией. Такой вывод можно сделать, сопоставив сентябрьские отчеты PwC и Accenture на эту тему. Представители бизнеса плохо понимают, что такое «большие данные»: каждый называет этим термином что-то свое. В прошлогодней статье The Washington Post утверждалось, что этот термин вообще не означает ничего определенного; если принять эту версию, он не имеет смысла.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое. По типичному пресс-релизу «Компания N внедрила решение Big Data» невозможно понять, о какой системе идет речь, как она работает и в чем ее польза. В результате этот сегмент рынка не производит впечатление устойчивого и надежного.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое

Рассуждая о «больших данных», аналитики PwC дают им странное определение: это «новая волна электронной информации, получаемой в большом объеме из растущего количества источников (т.е. не просто данные, собранные отдельной организацией в ходе своей обычной деятельности)» — «the recent wave of electronic information produced in greater volume by a growing number of sources (i.e., not just data collected by a particular organisation in the course of normal business)».

ИТ-специалисты и маркетологи сразу заметят, что это определение ведет к путанице, неверным ответам респондентов на вопросы аналитиков и ошибочным решениям в бизнесе. Конечно же, данные, собираемые из фиксированного количества источников одной организацией в ходе своей обычной деятельности, тоже бывают «большими». В том же отчете PwC приведен пример: оператор собрал данные о 25 млн своих клиентов (очевидно, речь идет о статистике сеансов связи) и сделал бесхитростный вывод, что сеть нового поколения (4G) выгоднее всего строить вдоль главных транспортных магистралей.

Аналитики Accenture не решились дать в отчете свое определение, а лишь отметили, что «у многих компаний есть разные определения больших данных». Зато они привели результаты опроса 1007 специалистов, использующих эти данные на практике. Респонденты с сильным сомнением отнесли к «большим» данные следующих категорий (или из следующих источников):

1. Файлы объемом более 20 терабайт (так считают 65% респондентов).

2. Углубленная аналитика или анализ (60%).

3. Данные от программ визуализации (50%).

4. Данные из социальных сетей (48%).

5. Неструктурированные данные (видео, открытый текст, звукозапись) (43%).

6. Геолокационные данные (38%).

7. Социальные медиа / мониторинг / преобразование (37%).

8. Телематика (34%).

9. Неструктурированные данные / логи / произвольный текст (25%).

Ответы респондентов на вопрос: «Что из перечисленного вы считаете частью больших данных (независимо от использования этого в вашей компании)?»

Источник: Accenture, сентябрь 2014

Эта бессистемная классификация напоминает знаменитую «китайскую классификацию животных» Борхеса. Впрочем, главное в ней — это признание того факта, что к «большим данным» относятся обычные информационные объекты, с которыми люди работали (создавали, изучали, систематизировали, использовали в бизнесе) задолго до появления компьютеров: книги, служебные документы, фотографии и так далее. Ничего сложного.

К «большим данным» относятся обычные информационные объекты, с которыми люди работали задолго до появления компьютеров: книги, служебные документы, фотографии и так далее

Ниже я дам правильное определение «больших данных», а пока — несколько слов о происхождении этого термина и его применении в ИТ-индустрии. Он возник в научной среде как неопределенный образ, означающий, по мнению некоторых авторов, просто «ценную исследовательскую информацию» («research data can also be big by being of lasting significance»). Вскоре его заметили маркетологи, решив, что он поможет увеличить продажи. Например, продажи компьютеров.

Представьте, что вы выпускаете хорошие компьютеры. Они надежны и годами работают в дата-центрах клиентов. Те довольны и не хотят покупать новые. Зачем, если старые отлично работают, решая все задачи бизнеса?

В такой ситуации полезно подкинуть клиентам новые задачи. Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи. Но для этого нужны особые компьютеры, которые непременно должны работать в кластерах, то есть распределять одну задачу на 10, а лучше на 100 системных блоков, одновременно выполняющих вычисления. Поэтому их надо покупать в большом количестве, заполняя длинные ряды серверных стоек.

Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи

У системных администраторов есть шуточное определение «больших данных»: «Если на одном сервере не умещаются, значит большие». В этой шутке есть доля истины: термин часто ассоциируется с распределенными вычислениями. Многие вендоры продают в качестве готовых решений для «больших данных» серверы с пакетом программ «Хадуп» (Hadoop) или подобным. Считается, что он упростит клиенту программирование для распределения своей задачи на несколько системных блоков. В остальном это просто серверы: обычная конфигурация включает корпус со сдвоенным блоком питания, системную плату с CPU и модулями памяти, HDD и Linux в придачу.

Распределенные вычисления — это не отличительный признак «больших данных». И, конечно, этим признаком не является «Хадуп», тем более что он рассчитан только на узкий класс задач. Остальные, не укладывающиеся в его парадигму, требуют принципиально других решений.

Распределенные вычисления — это не отличительный признак «больших данных»

Есть много способов повысить эффективность бизнеса с помощью анализа собранных данных на одном компьютере, безо всяких распределенных вычислений. Вспомните: статистические данные успешно анализировали и 20, и 30 лет назад — а в то время «сервер корпоративного уровня» за сотни тысяч долларов сильно уступал современному бытовому компьютеру.