Interested Article - Тёмные данные

Тёмные данные данные , которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений . Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные . В некоторых случаях организация может даже не знать, что данные собираются . По оценкам IBM , примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются .

В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой .

Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных . Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований и ведения архивов . Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики . Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.

Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет» .

Анализ

Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютером и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала , 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом» .

Актуальность

В категорию тёмных данных могут попадать и полезные данные, потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность .

Хранение

По данным New York Times , 90 % энергии, используемой центрами обработки данных, тратится впустую . Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, «данные, которые хранятся в организациях-членах EMEA, на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные, и лишь 14 % представляют какую-то ценность». По состоянию на 2020 год хранение избыточных данных обходится примерно в 900 млрд долл. США .

Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасности . Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить .

Будущее

Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции . В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных .

Примечания

Сноски

  1. Хэндс насчитывает 15 различных типов тёмных данных, в зависимости от природы последних

Источники

  1. . Gartner . Дата обращения: 27 апреля 2021. 31 марта 2019 года.
  2. Tittel. . CIO (24 сентября 2014). Дата обращения: 27 апреля 2021. 15 января 2019 года.
  3. Brantley. . Digitalgov.gov (17 июня 2015). Дата обращения: 27 апреля 2021. 16 января 2018 года.
  4. Johnson. (амер. англ.) . SiliconANGLE (30 октября 2015). Дата обращения: 3 ноября 2015. 11 июля 2018 года.
  5. Dennies. . Forbes (19 февраля 2015). 22 февраля 2015 года.
  6. Shahzad. . IBM Big Data & Analytics Hub (3 января 2017). Дата обращения: 27 апреля 2021. 6 марта 2018 года.
  7. . Дата обращения: 27 апреля 2021. Архивировано из 16 января 2017 года.
  8. David Hand. . The British Academy . The British Academy (18 ноября 2020). Дата обращения: 2 марта 2021. 27 апреля 2021 года.
  9. , с. 17.
  10. Miles. . ComputerWeekly (27 декабря 2013). Дата обращения: 3 ноября 2015. 10 апреля 2019 года.
  11. Glanz, James (2012-09-22). . The New York Times . из оригинала 16 мая 2019 . Дата обращения: 2 ноября 2015 .
  12. Hernandez. . Datamation (30 октября 2015). Дата обращения: 4 ноября 2015. 4 октября 2017 года.
  13. . IRI. из оригинала 15 января 2019 . Дата обращения: 14 января 2019 .
  14. Tittel. . CIO (24 сентября 2014). Дата обращения: 2 ноября 2015. 15 января 2019 года.
  15. Prag. (амер. англ.) . The Machine Learning Times (30 сентября 2014). Дата обращения: 4 ноября 2015. 14 апреля 2019 года.

Литература

  • Дэвид Хэнд . Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных = David J. Hand. Dark Data Why What We Don’t Know Is Even More Important Than What We Do. — М. : Альпина Паблишер , 2021. — 366 с. — ISBN 978-5-9614-4143-7 .
Источник —

Same as Тёмные данные