Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Фрэнкс Билл

Закладки
Размер шрифта
A   A+   A++
Cкачать
Читать
Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики (Фрэнкс Билл)

Bill Franks

Taming the Big Data Tidal Wave

Finding Opportunities in Huge Data Streams with Advanced Analytics

Правовую поддержку издательства обеспечивает юридическая фирма «Вегас-Лекс»

* * *

Эту книгу хорошо дополняют:

Большие данные

Виктор Майер-Шенбергер

Великий переход

Николас Карр

Новый цифровой мир

Эрик Шмидт

От партнера издания

Сегодня понятие «большие данные», бесспорно, очень популярно. Вокруг них создался огромный ажиотаж, многие действительно связывают с ними будущее. Но есть и те, кто настроен скептически или с осторожностью к большим данным.

Дело в том, что под этим модным выражением сегодня продают самое разное содержание. Одни считают это абсолютно новым революционным технологическим прорывом, подразумевающим полную замену существующих технологий и методологий. Другие – лишь логичным дополнением и развитием старого устойчивого тренда бизнес-аналитики, связанного с появлением новых источников огромного объема информации – как правило, неструктурированной.

Несмотря на популярность этой темы, по моим наблюдениям, существует недостаток качественной информации о ней. Если вы уже изучали ее, то наверняка сталкивались со множеством буклетов и статей, описывающих всю значимость больших данных, но не дающих никаких полезных деталей. Подозреваю, что они не показались вам убедительными и несущими практическую пользу. Возможно, вы находили статьи с подробным описанием различных технических терминов типа Hadoop, MapReduce и т. п. Но если вы не ИТ-специалист, то далеко не все из этого вам было интересно и понятно.

Книга, которую вы держите в руках, уникальна. На мой взгляд, это первая книга про большие данные, которая написана именно для бизнес-пользователей: руководителей разного уровня, аналитиков, маркетологов, экономистов. В ней прекрасно раскрыта тема больших данных с самых разных сторон: экономической, технологической и организационной. Вы найдете много полезной информации о необходимости изменений в вашей организации. Помимо новых технологий вам потребуются правильные сотрудники с нужными компетенциями как для разработки аналитических идей по использованию больших данных, так и для реализации этих инициатив в жизни. Ведь важно, чтобы созданная в вашей компании аналитическая экосистема и культура аналитических инноваций способствовала не только накоплению больших объемов сырой информации, но и была нацелена прежде всего на извлечение из нее реальной пользы.

Я очень рад, что эту книгу написал сотрудник Teradata – компании, которая уже более тридцати лет занимается задачами хранения, обработки и анализа данных. У нас собрана уникальная команда, которая сфокусирована именно на этих задачах, и мы готовы делиться с вами своими знаниями и опытом. Используя передовые технологии, мы позволяем своим клиентам извлекать из данных нужные знания, встраивать их в операционные процессы и в конечном итоге конвертировать все это в прибыль. За кейсами, описанными в этой книге, стоят идеи и опыт применения наших решений крупнейшими передовыми мировыми компаниями. Они используют большие данные, бизнес-аналитику и инновации как свое конкурентное преимущество, поэтому остаются лидерами в своих индустриях.

Уверен, после прочтения этой книги у вас не только сложится правильное понимание, что такое большие данные, но и появится ряд практических идей по улучшению вашего бизнеса или компании, в которой вы работаете. Во-первых, вы поймете, что вы уже имеете в готовом виде, а именно какими данными, компетенциями сотрудников и технологиями вы располагаете. Во-вторых, сможете оценить, чего вам не хватает и что потребует изменений. Возможно, стоит подумать про реорганизацию существующих подразделений, оптимизацию некоторых бизнес-процессов и внедрение новых решений для определенных задач.

С большими данными ваш бизнес действительно может стать более конкурентоспособным, инновационным и потому экономически более эффективным! Но откладывать нельзя, нужно действовать уже сейчас. Большие данные никуда не исчезнут, они неизбежны, и игнорировать их нельзя. Ведь те, кто первым укротит большие данные и начнет правильно их использовать в своем бизнесе, будут иметь большое преимущество и серьезный лидерский отрыв в гонке с конкурентами. Удачи вам на этом пути!

Андрей Алексеенко,глава Teradata в России

Эта книга посвящается Стейси, Джесси и Даниэль.

Они мирились с тем, что многие ночи и выходные я посвящал этой книге

Предисловие

Хотите вы этого или нет, но в ближайшее время на вас обрушится огромное количество данных. Возможно, уже обрушилось. Возможно, вы уже на протяжении некоторого времени пытаетесь справиться с этим, понять, как хранить данные для последующего доступа, как исправлять ошибки и недостатки или классифицировать их. Теперь вы готовы извлечь смысл из этого огромного набора данных путем их анализа, чтобы узнать что-то о своих клиентах, своем бизнесе или о некоторых аспектах своей организационной среды. А возможно, вы пока далеки от этого, но уже видите свет в конце туннеля управления данными.

В любом случае вы пришли по адресу. Билл Фрэнкс предполагает, что вскоре мир наводнят не только большие данные, но и книги о больших данных. Я предсказываю (без всякой аналитики), что эта книга будет отличаться от прочих. Во-первых, она одна из первых на эту тему. Но, самое главное, она сконцентрирована на ином.

Большинство книг о больших данных будут посвящены управлению большими данными: тому, как собирать их в базу данных или хранилище данных, или тому, как структурировать и классифицировать их. Если вы много читаете о Hadoop, MapReduce или других методах хранения данных, это значит, что вы наткнулись на книгу, посвященную управлению большими данными.

Это, конечно, важная работа. Независимо от их объема и качества данные мало чем полезны, если их не поместить в такую среду и формат, которые позволят получить к ним доступ и проанализировать их.

Сама по себе тема управления большими данными не обеспечивает движения вперед. Для того чтобы извлечь пользу из данных, необходимо проанализировать их и совершить какое-либо действие на основании результатов анализа. Так же как традиционные инструменты управления базами данных не обеспечивали автоматический анализ данных о транзакциях, полученных из традиционных систем, системы Hadoop и MapReduce не производят автоматическую интерпретацию данных, полученных от сайтов, картирования генов, анализа изображений или других источников больших данных. Даже до наступления эпохи больших данных многие организации многие годы (а иногда и десятилетия) занимались исключительно управлением данными, не извлекая из них никакой пользы в плане улучшения качества анализа и принятия решений.

Думаю, эта книга акцентирует внимание именно на том, на чем нужно. Она в первую очередь посвящена эффективному анализу больших объемов данных, а не управлению ими. Она начинается с данных и переходит к таким темам, как фреймовое представление решения, построение аналитического центра и создание аналитической культуры. Разумеется, здесь упоминается об управлении большими данными, однако основное внимание уделено созданию, организации, подбору персонала и воплощению аналитических инициатив, которые позволяют извлечь из входных данных пользу.

Copyrights and trademarks for the book, and other promotional materials are the property of their respective owners. Use of these materials are allowed under the fair use clause of the Copyright Law.