Interested Article - Apache Spark

Apache Spark (от англ. spark — искра, вспышка) — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop . В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с хранением промежуточных данных на накопителях, Spark работает в парадигме — обрабатывает данные в оперативной памяти , благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач , в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения .

Проект предоставляет программные интерфейсы для языков Java , Scala , Python , R . Изначально написан на Scala , впоследствии добавлена существенная часть кода на Java для предоставления возможности написания программ непосредственно на Java. Состоит из ядра и нескольких расширений, таких как Spark SQL (позволяет выполнять SQL -запросы над данными), Spark Streaming (надстройка для обработки потоковых данных), Spark MLlib (набор библиотек машинного обучения), GraphX (предназначено для распределённой обработки графов). Может работать как в среде кластера Hadoop под управлением YARN , так и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS , OpenStack Swift , NoSQL -СУБД Cassandra , Amazon S3 .

Ключевой автор — румынско-канадский учёный в области информатики ( англ. ), начал работу над проектом в 2009 году, будучи аспирантом Университета Калифорнии в Беркли . В 2010 году проект опубликован под лицензией BSD , в 2013 году передан фонду Apache и переведён на лицензию Apache 2.0 , в 2014 году принят в число проектов верхнего уровня Apache. В 2022 году проект получил ежегодную премию SIGMOD в номинации «Системы» .

Примечания

↑
— 2023.
↑
↑
↑
— 2006.
Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. (англ.) : journal. — 2013. — June. 9 августа 2017 года.
Matei Zaharia. (англ.) . Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. из оригинала 15 июня 2016 . Дата обращения: 1 октября 2017 . {{ cite AV media }} : Википедия:Обслуживание CS1 (location) ( ссылка ) . Дата обращения: 1 октября 2017. Архивировано 15 июня 2016 года.
. ACM (10 мая 2022). Дата обращения: 27 мая 2022. 15 июня 2022 года.

Литература

Х. Карау, Э. Конвински, П. Венделл, М. Захария. Изучаем Spark. Молниеносный анализ данных = Learning Spark: Lightning-Fast Big Data Analytics (O’Reilly, 2015). — , 2015. — 304 с. — ISBN 978-5-97060-323-9 .
С. Риза, У. Лезерсон, Ш. Оуэн, Д. Уиллс. Spark для профессионалов: современные паттерны обработки больших данных = Advanced Analytics with Spark. Patterns for Learning from Data at Scale (O’Reilly, 2015). — Питер , 2017. — 272 с. — ISBN 978-5-496-02401-3 .
Уоррен Р., Карау Х. Эффективный Spark. Масштабирование и оптимизация = High Performance Spark. Best Practices for Scaling and Optimizing Apache Spark. — Питер, 2018. — 352 с. — ISBN 978-5-4461-0705-6 .