Текстовые данные
- 1 year ago
- 0
- 0
Тёмные данные — данные , которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений . Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные . В некоторых случаях организация может даже не знать, что данные собираются . По оценкам IBM , примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются .
В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой .
Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных . Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований и ведения архивов . Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики . Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.
Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет» .
Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютером и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала , 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом» .
В категорию тёмных данных могут попадать и полезные данные, потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность .
По данным New York Times , 90 % энергии, используемой центрами обработки данных, тратится впустую . Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, «данные, которые хранятся в организациях-членах EMEA, на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные, и лишь 14 % представляют какую-то ценность». По состоянию на 2020 год хранение избыточных данных обходится примерно в 900 млрд долл. США .
Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасности . Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить .
Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции . В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных .