Рубрика: Теория

Big Data

В современном мире даже маленький датчик может передавать гигабайты информации в день. Фраза «Большие данные — это новая нефть» стала лозунгом обширной сферы науки и бизнеса, объединённой термином Big Data. Теперь необходимо понять, что с этими данными делать. И как на них заработать.

Содержание статьи:

  1. Топливо для развития общества;
  2. Как они есть;
  3. Данных мало не бывает;
  4. На трезвую голову.

Топливо для развития общества

Конечно, Big Data не являются новой нефтью: информация — ресурс бесконечный, более того, с непрерывно растущими объёмами «добычи». Технологическое развитие даёт всё больше её источников. Компания Cloudera может собирать 1 гигабайт информации в день с одного (!) напульсника. Baker Hughes, одна из крупнейших нефтегазовых обслуживающих компаний, в одном из своих исследовании собирала терабайты информации в день с одного грузовика.

Как и сырую нефть, «сырые» данные мало кто смог бы использовать эффективно. Но как «чёрное золото» превращается в бензин, пластмассу, каучук, так и массивы данных превращаются в крайне полезную аналитику. А главное — Big Data, как и нефть за прошедшее столетие, может стать «топливом» для развития общества.

Можно ли заработать миллиарды на данных, как на углеводородах? По крайней мере, их можно сэкономить. Neo4j, система управления базами данных, только в одном кейсе NASA сэкономила 2 года работы инженера и, соответственно, миллионы долларов: среди огромного массива имеющейся информации удалось разыскать результаты исследовании, которые в противном случае пришлось бы проводить с нуля.

Таких пользователей — от Adidas до Всемирного экономического форума — у одной только одноимённой компании Neo4j около 80 (при статусе «небольшого стартапа»!). Сколько же экономят такие команды!

Big Data

Big Data: Как они есть

Возможно, вы слышали о том, что грузовики курьерской службы UPS редко сворачивают на перекрёстках налево. Если слышали, то наверняка знаете и о причинах. В США, как и во многих других странах, даже на красный сигнал светофора можно поворачивать направо, пристраиваясь к движущемуся потоку, тогда как для поворота налево придётся подождать зелёного сигнала. В иных случаях при повороте налево водителю придётся сначала пропустить трафик в обе стороны. Таким образом левый поворот — потери бензина и время.

А ведь такая логистическая стратегия не с потолка взялась — она прошла тщательнейшую научную проверку. UPS сильна в технологиях обработки данных: 2 дата-центра в США, 21 тысяча серверов, более 230 тысяч подключённых «рабочих станций», носители на 25 пикобайт (в 6 раз больше, чем годичные исследовании Большого адронного коллайдера). Благодаря логистическим исследованиям удалось начать выстраивать экономичные и быстрые маршруты. По оценке самой UPS, её экономия — 38 млн. литров топлива в год. А упомянутая выше Baker Hughes теперь сможет сократить расходы на эксплуатацию грузового транспорта на 30-40 %.

Видео «Hadoop. Введение в Big Data и MapReduce»:

Данных мало не бывает

Для нашей страны Big Data — пока лишь трендовая тема для СМИ. Как такового отечественного рынка ещё не существует, частично — из-за отсутствия этих данных.

Александр Никс, создатель Cambridge Analytica, работавшей с Big Data для кампании Дональда Трампа, в конце сентября посетил конференцию IT Arena. В одном из интервью он рассказал, что на каждого американца можно собрать 4-5 тысяч «элементов данных», от политических предпочтений до хобби. Тому способствуют законодательство США и глубокая диджитализация.

Александра тем временем всюду сопровождают бумажные картотеки. При этом, по данным СЕDOS, до 30 % проживают не по адресу регистрации, большинство пользуется предоплаченной, то есть частично обезличенной, мобильной связью.

Нельзя сказать, что у нас не востребованы большие данные. Наоборот. Торговля самыми различными базами — дело прибыльное и зачастую незаконное. Невостребованными остаются услуги по их обработке, аналитике. Верхняя планка работы с Big Data: купить базу почтовых адресов с именами жильцов, «выявить» среди них женщин и отправить им одинаковые рекламные предложения.

Интерес к данной сфере минимален: на крупнейшем рекрутинговом интернет-ресурсе мы нашли лишь около 100 вакансий, как-то связанных с Big Data. Ни один из этих работодателей не специализируется на больших данных. Вообще у нас фирмы с такой или близкой специализацией по пальцам перечтёшь. Даже на участившихся Data-конференциях в нашей стране спикеры скорее либо гости, либо аналитики, работающие на компании другого профиля (телекоммуникации или, например, ритейл).

Впрочем, на это вам могут заговорщицки ответить, что в нашей стране самые-самые специалисты работают с Big Data «тихо» и конференций не посещают…

Польза big data

На трезвую голову

Для кого данные действительно стали «новой нефтью», так это отечественные вузы. Основа революционной Big Data кроется в старой скучной математике. Вузам оставалось лишь немного модернизировать специальность «Прикладная математика». Так направление, ещё десяток лет назад едва наскребавшее абитуриентов по госзаказу, «внезапно» оказалось перспективным: масса интересующихся, высокий ценник (свыше $3000 за магистерскую полуторагодичную программу в одном из частных вузов), готовность ІТ-компаний оплачивать обучение таких специалистов.

Скептики называют Big Data очередным мыльным пузырём, предрекая такое же быстрое падение интереса, каким быстрым был его рост. Возможно, большие данные действительно уйдут из топ-тем специализированных СМИ, а их роль будет оценена более трезво (Трамп победил отнюдь не благодаря анализу сведений об избирателях). Но мыльные пузыри не возникают на базе математической науки и не помогают NASA экономить по паре миллионов за один заход…ⓂⒷ