В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий
.
В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объём (
англ.
volume
, в смысле величины физического объёма), скорость (
velocity
в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (
variety
, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)
; в дальнейшем возникли различные вариации и интерпретации этого признака
.
С точки зрения
информационных технологий
, в совокупность подходов и инструментов изначально включались средства
массово-параллельной
обработки неопределённо структурированных данных, прежде всего, системами управления базами данных категории
NoSQL
, алгоритмами
MapReduce
и реализующими их программными каркасами и библиотеками проекта
Hadoop
. В дальнейшем к серии технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.
Содержание
История
Широкое введение термина «большие данные» связывают с
, редактором
журнала Nature
, подготовившим к
3 сентября
2008 года
специальный выпуск с темой
«Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»
, в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами
«большая нефть»
,
«большая руда»
.
Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений
[
обтекаемое выражение
]
, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях использует понятие о больших данных, в том числе
IBM
,
Oracle
,
Microsoft
,
Hewlett-Packard
,
EMC
, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования
.
С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по
науке о данных
и вычислительным наукам и инженерии
.
В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, фигурировавшие в выделенном цикле зрелости, по большей части перешли в специальные циклы по
и науке о данных, по BI и анализу данных, корпоративному управлению информацией,
, информационной инфраструктуре
.
VVV
Набор признаков
VVV
(
volume, velocity, variety
) изначально выработан Meta Group в 2001 году вне контекста представлений о больших данных как об определённой серии информационно-технологических методов и инструментов, в нём, в связи с ростом популярности концепции центрального
хранилища данных
для организаций, отмечалась равнозначимость проблематик управления данными по всем трём аспектам
. В дальнейшем появились интерпретации с «четырьмя V» (добавлялась
veracity
— достоверность, использовалась в рекламных материалах
IBM
), «пятью V» (в этом варианте прибавляли
viability
— жизнеспособность, и
value
— ценность
), и даже «семью V» (кроме всего, добавляли также
variability
— переменчивость, и
visualization
).
IDC
интерпретирует «четвёртое V» как
value
c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC
. Во всех случаях в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но другие категории, существенные для представления о сложности задачи обработки и анализа данных.
Источники
Классическими источниками больших данных признаются
интернет вещей
и
социальные медиа
, считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и
биоинформатики
, из астрономических наблюдений
.
Методы и техники анализа, применимые к большим данным, выделенные в отчёте
McKinsey
:
методы класса
Data Mining
: обучение ассоциативным правилам (
англ.
association rule learning
), классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
кластерный анализ
,
регрессионный анализ
;
краудсорсинг
— категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
смешение и интеграция данных (
англ.
data fusion and integration
) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся
цифровая обработка сигналов
и
обработка естественного языка
(включая
тональный анализ
);
визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
Технологии
Наиболее часто указывают в качестве базового принципа обработки больших данных
горизонтальную масштабируемость
, обеспечивающую обработку данных, распределённых на сотни и тысячи вычислительных узлов, без деградации производительности; в частности, этот принцип включён в определение больших данных от
NIST
. При этом McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии
Business Intelligence
и
реляционные системы управления базами данных
с поддержкой
языка SQL
.
Существует ряд аппаратно-программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных:
(корпорации
Teradata
),
,
(корпорации
EMC
, на основе решений поглощённой компании
Greenplum
). Эти комплексы поставляются как готовые к установке в
центры обработки данных
телекоммуникационные шкафы
, содержащие
кластер серверов
и управляющее программное обеспечение для массово-параллельной обработки.
Аппаратные решения для
, прежде всего, для баз данных в
оперативной памяти
и аналитики в оперативной памяти, в частности, предлагаемой
аппаратно-программными комплексами
Hana
(предконфигурированное аппаратно-программное решение компании
SAP
) и
Exalytics
(комплекс компании
Oracle
на основе реляционной системы
и
Essbase
), также иногда относят к решениям из области больших данных
, несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.
Кроме того иногда к решениям для больших данных относят и аппаратно-программные комплексы на основе традиционных
реляционных систем управления базами данных
—
Netezza
,
Teradata
,
Exadata
, как способные эффективно обрабатывать терабайты и эксабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний
, впервые выпущенные в
1983 году
, и Teradata (начали выпускаться в
1984 году
, притом в
1990 году
Teradata поглотила Britton Lee)
.
Аппаратные решения
DAS
— систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям больших данных. Именно с появлением концепции больших данных связывают всплеск интереса к DAS-решениям в начале
2010-х годов
, после вытеснения их в 2000-е годы сетевыми решениями классов
NAS
и
SAN
.
Примечания
, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.
, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
.
↑
.
Канаракус, Крис.
(рус.)
.
, № 04, 2011
.
Открытые системы
(1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)». Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными, с. 42.
(неопр.)
.
MartinHilbert.net
. Дата обращения: 13 апреля 2016.
14 апреля 2016 года.
, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.
Дубова, Наталья.
(рус.)
.
Открытые системы
(3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных». Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Henschen, Doug.
(англ.)
.
InformationWeek
(24 октября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Finley, Klint.
(англ.)
.
(17 июля 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Шах, Агам.
(неопр.)
.
Открытые системы
(19 августа 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
(англ.)
.
InformationWeek
(21 сентября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Woo, Benjamin et al.
(англ.)
.
International Data Corporation
(1 октября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Evelson, Boris and Hopkins, Brian.
(англ.)
.
Forrester Research
(20 сентября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
.
Thibodeau, Patrick.
(англ.)
.
Computerworld
(18 октября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.
(англ.)
.
School of Computing
.
Dundee University
(1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013.
22 января 2013 года.
(англ.)
.
Institute for Applied Computational Science
.
Harvard University
(1 января 2013). — «“…Many of the defining questions of this era in science and technology will be centered on ‘big data’ and machine learning. This master’s program will prepare students to answer those questions…”». Дата обращения: 18 января 2013.
22 января 2013 года.
Simon Sharwood.
(англ.)
.
The Register
(21 августа 2015). Дата обращения: 19 февраля 2017.
20 февраля 2017 года.
Doug Laney.
(англ.)
.
Meta Group
(6 февраля 2001). Дата обращения: 19 февраля 2017.
23 июля 2013 года.
(англ.)
.
IBM
(2011). Дата обращения: 19 февраля 2017.
16 июня 2016 года.
Neil Biehn.
(англ.)
.
Wired
(1 мая 2013). Дата обращения: 19 февраля 2017.
20 февраля 2017 года.
Eileen McNulty.
(англ.)
.
Dataconomy
(22 мая 2014). Дата обращения: 19 февраля 2017.
20 февраля 2017 года.
, “big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling the high-velocity capture, discovery, and/or analysis”, p. 4.
, p. 19—23.
, pp. 7—8.
.
, pp. 27—31.
, “Big data shall mean the data of which the data volume, acquisition speed, or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies”, p. 4.
, pp. 31—33.
, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.
Darrow, Barb.
(англ.)
.
(2 октября 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных.
Леонид Черняк.
(рус.)
.
«Computerworld Россия» , № 14, 2011
. Открытые системы (5 мая 2011). Дата обращения: 12 ноября 2011.
3 сентября 2012 года.
Литература
Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung.
Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 p. —
ISBN 978-3-319-06244-0
. —
doi
:
.
Виктор Майер-Шенбергер, Кеннет Кукьер.
Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. —
М.
: Манн, Иванов, Фербер, 2014. — 240 с. — ISBN 987-5-91657-936-9.
Preimesberger, Chris
(англ.)
.
EWeek
(15 августа 2011). Дата обращения: 12 ноября 2011.
17 мая 2012 года.
Алан Моррисон и др.
(рус.)
.
Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3
.
PricewaterhouseCoopers
(17 декабря 2010). Дата обращения: 12 ноября 2011.
11 марта 2012 года.
(англ.)
.
Gartner
(27 июня 2011). Дата обращения: 12 ноября 2011.
17 мая 2012 года.
James Manyika et al.
(англ.)
(PDF).
McKinsey Global Institute, June, 2011
.
McKinsey
(9 августа 2011). Дата обращения: 12 ноября 2011.
11 декабря 2012 года.