Interested Article - Выявление аномалий
- 2021-08-29
- 2
Выявление аномалий ( обнаружение выбросов ) — опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных . Обычно аномальные данные характеризуют некоторый вид проблемы, такой как , структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы , необычности, шум, отклонения или исключения .
Общее обсуждение
Выявление аномалий в контексте обнаружения злоумышленного использования и вторжения в сеть, интересующие нас объекты часто не являются редкими, но проявляют неожиданную вспышку активности. Это не соответствует обычному статистическому определению выбросов как редких объектов и многие методы обнаружения выбросов (в частности, методы без учителя ) терпят неудачу на таких данных, пока данные не будут сгруппированы подходящим образом. Зато алгоритмы кластерного анализа способны заметить микрокластеры, образованные таким поведением .
Существует широкий набор категорий техник выявления аномалий . Техника выявления аномалий без учителя обнаруживает аномалии в непомеченных наборах тестовых данных при предположении, что большая часть набора данных нормальна, путём поиска представителей, которые меньше подходят к остальному набору данных. Техника выявления аномалий с учителем требует предоставления данных, помеченных как «нормальные» и «ненормальные», и использует обучение классификатора (ключевое отличие от многих других задач классификации заключается в неотъемлемой несбалансированной природе выявления выбросов). Техника выявления аномалий с частичным учителем строит модель, представляющую нормальное поведение из заданного набора нормального тренировочного набора, а затем проверяет правдоподобие полученной модели.
Приложения
Выявление аномалий применимо к широкому кругу областей, таких как система обнаружения вторжений , обнаружение мошенничества , обнаружение неисправностей, мониторинга здоровья, обнаружение событий в сетях датчиков и обнаружение нарушений в экологической сфере. Часто выявление аномалий используется для предварительной обработки данных с целью удаления аномалий. При обучении с учителем удаление аномальных данных из набора часто приводит к существенному статистическому увеличению точности .
Популярные техники
В литературе было предложено несколько техник выявления аномалий . Вот некоторые популярные техники:
- Техники, основанные на плотности ( k-ближайшие соседи , локальный уровень выброса , изолирующие леса и многие другие варианты этой концепции ).
- Обнаружение выбросов на основе подпространств и на основе корреляции для данных высокой размерности .
- Метод опорных векторов для одного класса .
- Репликатор нейронных сетей .
- Байесовские сети .
- Скрытые марковские модели (СММ) .
- Выявление выбросов на основе кластерного анализа .
- Отклонения от ассоциативных правил и часто встречающихся наборов.
- Выявление выбросов на основе нечёткой логики .
- Техника создания ансамблей , использующая , усреднение оценки и различение источников несхожести .
Эффективность различных методов зависит от данных и параметров и имеют слабые систематические преимущества один перед другим, если сравнивать по многим наборам данных и параметров .
Приложение к защите данных
Выявление аномалий предложила для систем обнаружения вторжений Дороти Деннинг в 1986 году . Выявление аномалий для систем обнаружения вторжений обычно выполняется с заданием порога и статистики, но может быть сделано с помощью мягких вычислений и индуктивного обучения . Типы статистики, предлагавшиеся в 1999 году, включали профили пользователей, рабочих станций , сетей, удалённых узлов, групп пользователей и программ, основанных на частотах, средних и дисперсиях . Эквивалентом выявления аномалий в обнаружении вторжений является .
Программное обеспечение
- является комплектом инструментов с открытым кодом на языке Java для анализа данных, который содержит некоторые алгоритмы выявления аномалий, а также ускорители на основе индексов для них.
Примечания
- ↑ , с. 1–5.
- , с. 85–126.
- .
- , с. 1–58.
- , с. 448–452.
- , с. 2690.
- , с. e1280.
- , с. 237–253.
- , с. 427.
- , с. 15.
- , с. 93–104.
- , с. 413–422.
- , с. 190–237.
- , с. 831.
- , с. 379.
- , с. 363–387.
- , с. 1443–71.
- ↑ , с. 170–180.
- , с. 1641–1650.
- , с. 5:1–51.
- , с. 157–166.
- , с. 368.
- , с. 13–24.
- , с. 1047–1058.
- , с. 11–22.
- , с. 1.
- , с. 891.
- См. наборы данных ниже
- , с. 222–232.
- , с. 278–284.
- .
Литература
- Arthur Zimek, Erich Schubert. Outlier Detection // . — Springer New York, 2017. — ISBN 9781489979933 . — doi : .
- Hodge V. J., Austin J. // Artificial Intelligence Review. — 2004. — Т. 22 , вып. 2 . — doi : .
- Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. // Proceedings NSF Workshop on Next Generation Data Mining. — 2002.
- Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // . — 2009. — Т. 41 , вып. 3 . — doi : .
- Ivan Tomek. An Experiment with the Edited Nearest-Neighbor Rule // . — 1976. — Т. 6 , вып. 6 . — doi : .
- Smith M. R., Martinez T. Improving classification accuracy by identifying and removing instances that should be misclassified // . — 2011. — ISBN 978-1-4244-9635-8 . — doi : .
- Arthur Zimek, Peter Filzmoser. There and back again: Outlier detection between statistical reasoning and data mining algorithms // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. — 2018. — Т. 8 , вып. 6 . — ISSN . — doi : .
- Knorr E. M., Ng R. T., Tucakov V. Distance-based outliers: Algorithms and applications // The VLDB Journal the International Journal on Very Large Data Bases. — 2000. — Т. 8 , вып. 3–4 . — doi : .
- Ramaswamy S., Rastogi R., Shim K. Efficient algorithms for mining outliers from large data sets // Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. — 2000. — ISBN 1-58113-217-4 . — doi : .
- Angiulli F., Pizzuti C. Fast Outlier Detection in High Dimensional Spaces // Principles of Data Mining and Knowledge Discovery. — 2002. — Т. 2431. — (Lecture Notes in Computer Science). — ISBN 978-3-540-44037-6 . — doi : .
- Breunig M. M., Kriegel H.-P., Ng R. T., Sander J. LOF: Identifying Density-based Local Outliers // . — 2000. — ( SIGMOD ). — ISBN 1-58113-217-4 . — doi : .
- Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. // 2008 Eighth IEEE International Conference on Data Mining. — 2008. — ISBN 9780769535029 . — doi : .
- Schubert E., Zimek A., Kriegel H. -P. Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection // Data Mining and Knowledge Discovery. — 2012. — Т. 28 . — doi : .
- Kriegel H. P., Kröger P., Schubert E., Zimek A. Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data // Advances in Knowledge Discovery and Data Mining. — 2009. — Т. 5476. — (Lecture Notes in Computer Science). — ISBN 978-3-642-01306-5 . — doi : .
- Kriegel H. P., Kroger P., Schubert E., Zimek A. Outlier Detection in Arbitrarily Oriented Subspaces // 2012 IEEE 12th International Conference on Data Mining. — 2012. — ISBN 978-1-4673-4649-8 . — doi : .
- Zimek A., Schubert E., Kriegel H.-P. A survey on unsupervised outlier detection in high-dimensional numerical data // Statistical Analysis and Data Mining. — 2012. — Т. 5 , вып. 5 . — doi : .
- Schölkopf B., Platt J. C., Shawe-Taylor J., Smola A. J., Williamson R. C. Estimating the Support of a High-Dimensional Distribution // Neural Computation. — 2001. — Т. 13 , вып. 7 . — doi : . — .
- Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Outlier Detection Using Replicator Neural Networks // Data Warehousing and Knowledge Discovery. — 2002. — Т. 2454. — (Lecture Notes in Computer Science). — ISBN 978-3-540-44123-6 . — doi : .
- He Z., Xu X., Deng S. Discovering cluster-based local outliers // Pattern Recognition Letters. — 2003. — Т. 24 , вып. 9–10 . — doi : .
- Campello R. J. G. B., Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. — 2015. — Т. 10 , вып. 1 . — doi : .
- Lazarevic A., Kumar V. Feature bagging for outlier detection // Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. — 2005. — ISBN 978-1-59593-135-1 . — doi : .
- Nguyen H. V., Ang H. H., Gopalkrishnan V. Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces // Database Systems for Advanced Applications. — 2010. — Т. 5981. — (Lecture Notes in Computer Science). — ISBN 978-3-642-12025-1 . — doi : .
- Kriegel H. P., Kröger P., Schubert E., Zimek A. Interpreting and Unifying Outlier Scores // . — 2011. — ISBN 978-0-89871-992-5 . — doi : .
- Schubert E., Wojdanowski R., Zimek A., Kriegel H. P. On Evaluation of Outlier Rankings and Outlier Scores // . — 2012. — ISBN 978-1-61197-232-0 . — doi : .
- Zimek A., Campello R. J. G. B., Sander J. R. Ensembles for unsupervised outlier detection // ACM SIGKDD Explorations Newsletter. — 2014. — Т. 15 . — doi : .
- Zimek A., Campello R. J. G. B., Sander J. R. Data perturbation for outlier detection ensembles // Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. — 2014. — ISBN 978-1-4503-2722-0 . — doi : .
- Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo J. G. B. Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study // Data Mining and Knowledge Discovery. — 2016. — Т. 30 , вып. 4 . — ISSN . — doi : .
- Denning D. E. // . — 1987. — Т. SE-13 , вып. 2 . — doi : .
- Teng H. S., Chen K., Lu S. C. // Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy. — 1990. — ISBN 978-0-8186-2060-7 . — doi : .
- Anita K. Jones, Robert S. Sielken. Computer System Intrusion Detection: A Survey // Technical Report, Department of Computer Science,. — University of Virginia, Charlottesville, VA, 1999.
Ссылки
- Мюнхенского университета ; в Университете Сан-Паулу .
- — ODDS: Большая коллекция публично доступных наборов данных для выявления выбросов с реальными ситуациями в различных областях.
- 2021-08-29
- 2