Interested Article - Cloudera

Cloudera американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop .

Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений . С бумом технологий « больших данных », Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса .

В 2018 году поглотила основного конкурента на рынке Hadoop-дистрибутивов — американскую компанию .

История

Компания была основана в октябре 2008 года в ( штат Калифорния ) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop . Основатели компании — ( англ. ), ранее работавший в Google , Амр Авадалла ( Amr Awadallah , вице-президент корпорации Yahoo , отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер ( Jeff Hammerbacher , менеджер проекта Hive в компании Facebook ) и ( Michael Olson ), вице-президент корпорации Oracle , ранее генеральный директор , разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle) . Хаммербахер организовал начальное финансирование проекта фондом Accel Partners , а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы ( Gideon Yu ) и Катерина Фейк ( Caterina Fake ) .

Среди нанятых в первые месяцы сотрудников были создатели Hadoop ( англ. ) и Майкл Кафарелла ( Mike Cafarella ), бывшие руководители компаний VMware (Дайен Грин, Diane Green ) и MySQL AB (Мартен Микос, Marten Mikos ) . Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop» .

В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek , а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году . При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций .

В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн , в декабре 2012 года — ещё $65 млн , среди инвесторов очередных раундов указываются Ignition Partners , Greylock , Accel , Meritech Capital Partners и In-Q-Tel .

В октябре 2012 года компания представила продукт Impala , обеспечивающий доступ на языке SQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL ( англ. old SQL , по созвучию со « старой школой » — old school) .

В июне 2013 года на должность генерального директора приглашён ( Tom Reilly ), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению , либо продаже бизнеса . Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx , основанную Шоном Оуэном ( Sean Owen ), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout , объявлено о назначении Оуэна на должность «директора по науке о данных » ( англ. director of data science) .

К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн , а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн . В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд ; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera . В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang .

В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже , в результате которого привлекла $215 млн . Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson , и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks .

В октябре 2018 года объявлено о слиянии с Hortonworks, притом структура сохранила наименование Cloudera, листинг на бирже и генерального директора, а акционеры Hortonworks получили 40 % акций объединённой компании . Сделка завершена 3 января 2019 года, несмотря на суммарную оценку двух компаний в момент объявления в $5,2 млрд, по её завершении капитализация объединённого бизнеса составила около $3 млрд . Поглощение фактически завершило этап консолидации на рынке коммерческих дистрибутивов Hadoop (из сколь-либо заметных других участников рынка осталась только компания с годовым оборотом около $175 млн за 2018 год), сместив фокус конкуренции на более широкие сегменты — инструментов больших данных и аналитических платформ .

В конце 2020 года компания совершила обратный выкуп акций у Intel за $314 млн (что на $426 млн дешевле инвестиций 2014 года) .

CDH

CDH ( англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутивов Linux ( Red Hat Enterprise Linux , CentOS , Ubuntu , SuSE SLES , Debian ). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: , HBase , Hive , Mahout , Oozie , , , , Zookeeper . Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager , включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах ( Rackspace , Amazon EC2 , ), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven .

К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса , притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle , а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN ), в состав CDH4 включены также три собственных продукта фирмы — (браузерный интерфейс управления Hadoop-кластером), Impala и (полнотекстовый и фасетный поиск в средах HDFS и HBase ). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров) .

Impala

массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase , распространяется по лицензии Apache 2.0 . В отличие от Hive , обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce.

Cloudera Manager

Cloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера . Для Cloudera Manager существует бесплатная редакция ( англ. free edition), работающая только на кластерах , состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos ).

Тематические продукты

Вслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных , с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase , и Spark ), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач « науки о данных »), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс на основе собственного компонента SDX).

Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Engineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub.

Примечания

  1. (неопр.) . Morning Star (7 сентября 2018). 7 сентября 2018 года.
  2. , I see some interesting parallels between Hadoop and Red Hat, which rose to prominence on the back of Red Hat Linux, a version of Linux optimized for corporate users.
  3. , Cloudera helps distribute Hadoop, and provides practical services around the technology, similar to what Red Hat does for the Linux framework.
  4. , Storage giant EMC has teamed up with Cloudera, a specialist in database software, to create technologies to better support “big data” … Startup Cloudera is using the open source Hadoop software package to analyse very large sets of data.
  5. , “It will be guys like Jeff who understand what to do with big data”.
  6. , …Christophe Bisciglia, who led the partnership between Google, IBM, and the National Science Foundation to create Hadoop grids for academics to play around with; Amr Awadallah, a former Yahoo vice president of engineering that led the data warehousing and analytics effort behind that company's mail, search, finance, and news services; - Mike Olson, formerly the chief executive officer of open source database maker Sleepycat Software (now owned by Oracle); and Jeff Hammerbacher, formerly of social networking giant Facebook and the manager who created the Hive project, which is a data warehousing layer that works in conjunction with Hadoop and that Facebook uses to do data analysis on its many petabytes of information stored in its user data warehouse.
  7. , Funding: $11 million from Accel Partners, Greylock Partners, and angel investors that include Gideon Yu and Caterina Fake.
  8. , …Doug Cutting and Mike Cafarella as advisors as well as Diane Green (founder and former CEO at virtualization specialist VMware) and Marten Mikos.
  9. Handy, Alex. (англ.) . (9 октября 2009). Дата обращения: 25 декабря 2011. Архивировано из 11 марта 2012 года.
  10. , Cloudera co-founder Christophe Bisciglia was one of Bloomberg BusinessWeek's Best Young Tech Entrepreneurs of 2009.
  11. , Toughest decision: Changing Cloudera's business model to make it into a software vendor.
  12. Worthen, Ben (2011-11-22). (англ.) . N. Y. : The Wall Street Journal . из оригинала 25 декабря 2011 . Дата обращения: 28 декабря 2011 . More big-funding deals have been struck since then, including $85 million for human-resources-software maker Workday Inc., $81 million for online file-sharing site Box.net Inc., $50 million for marketing company Marketo Inc. and $40 million for data-management company Cloudera Inc
  13. Darrow, Barb (англ.) . Gigaom (6 декабря 2012). — «The funding round was led by Accel Partners with help from Greylock Partners, Ignition Partners, In-Q-Tel, and Meritech Capital Partners» . Дата обращения: 10 декабря 2012. Архивировано из 17 декабря 2012 года.
  14. , Cloudera just announced $40 million in new funding led by Ignition Partners, Greylock, Accel, Meritech Capital Partners, and In-Q-Tel.
  15. Brust, Andrew . Big Data darling Cloudera's Impala product promotes SQL to peer-level with MapReduce (англ.) . ZDNet (25 октября 2012) . — «Instead of beckoning “old school” database and BI professionals (i.e. the majority of enterprise developers and DBAs) to move to Hadoop, it announced the beta of a new product, Impala, that brings Hadoop to them» . Дата обращения: 1 января 2014. 2 января 2014 года.
  16. Prickett Morgan . Former CEO becomes chairman and chief strategist (англ.) . The Register (20 июня 2013) . Дата обращения: 1 января 2014. 2 января 2014 года.
  17. Clark, Jack . Elephant snorts baby elephant for machine learning skills (англ.) . The Register (16 июля 2013) . Дата обращения: 17 июля 2013. Архивировано из 31 августа 2013 года.
  18. Harris, Dereck (англ.) . Gigaom (27 марта 2014). Дата обращения: 1 апреля 2014. 30 марта 2014 года.
  19. Clark, Jack . Huge funding deal keeps Oracle, IBM away from upstart’s yellow elephant (англ.) . The Register (31 марта 2014) . Дата обращения: 1 апреля 2014. 4 апреля 2014 года.
  20. Liam Tung. . Cloudera buys Gazzang to offer enterprise customers encryption for data at rest in Hadoop clusters (неопр.) . ZDNet (15 июня 2014) . Дата обращения: 23 сентября 2018. 25 сентября 2019 года.
  21. Anita Balakrishnan. (неопр.) . CNBC (28 апреля 2017). Дата обращения: 23 сентября 2018. 23 сентября 2018 года.
  22. Rebecca Hill. . Someone’s noticed Big Blue’s deal with Hortonworks (неопр.) . The Register (8 сентября 2017) . Дата обращения: 23 сентября 2018. 23 сентября 2018 года.
  23. Kevin Kelleher. (неопр.) . Fortune (3 октября 2018). Дата обращения: 4 октября 2018. 4 октября 2018 года.
  24. Rebecca Hill. . New-look firm turns attention to PR offensive (неопр.) . The Register (7 января 2019) . Дата обращения: 7 января 2019. 8 января 2019 года.
  25. Andrew Brust. The two biggest Hadoop distribution vendors are now one. What does this mean for the Big Data world, for customers and for Apache Hadoop? (неопр.) ZDNet (4 января 2019) . Дата обращения: 7 января 2019. 31 января 2019 года.
  26. Max A. Cherney. (неопр.) . Barron’s (23 декабря 2020). Дата обращения: 25 декабря 2020. 25 декабря 2020 года.
  27. Pricket Morgan, Timothy (англ.) . The Register (10 января 2012). Дата обращения: 13 января 2012. Архивировано из 6 сентября 2012 года.
  28. Tony Baer. . Hadoop 3.0 takes a starring role in the next release of Cloudera's platform (неопр.) . ZDNet (22 мая 2018) . Дата обращения: 23 сентября 2018. 27 ноября 2020 года.
  29. Pricket Morgan, Timothy. (англ.) . The Register (8 сентября 2011). Дата обращения: 15 апреля 2013. Архивировано из 18 апреля 2013 года.

Ссылки

  • Vance, Ashlee (2009-03-17). (HTML) (англ.) . N. Y. : The New York Times . pp. B3 . Дата обращения: 13 декабря 2011 .
  • Prickett Morgan, Timothy (англ.) . The Register (16 марта 2009). Дата обращения: 13 декабря 2011. Архивировано из 11 марта 2012 года.
  • Taft, Darryl (англ.) . eWeek (2 октября 2009). Дата обращения: 13 декабря 2011. Архивировано из 17 мая 2012 года.
  • Malik, Om (англ.) . (2 октября 2009). Дата обращения: 13 декабря 2011. Архивировано из 17 мая 2012 года.
  • Nairn, Geoff (2010-09-27). (HTML) (англ.) . L. : Financial Times . ISSN . Дата обращения: 29 мая 2011 .
  • (англ.) . Cloudera's Olson Interview About Data Use . Bloomberg (22 марта 2011). Дата обращения: 13 декабря 2011. Архивировано из 17 мая 2012 года.
  • (англ.) . Best Young Tech Entrepreneurs 2010 . Bloomberg Businessweek (20 апреля 2010). Дата обращения: 27 декабря 2011. Архивировано из 17 мая 2012 года.
  • Vance, Ashlee (2011-04-14). (HTML) . Businessweek (англ.) . N. Y. : Bloomberg. ISSN . Дата обращения: 29 мая 2011 .
  • Jackson, Joab (2011-10-17). (HTML) (англ.) . Framingham: Computerworld . ISSN . Дата обращения: 29 мая 2011 .
  • Rao, Leena (англ.) . TechCrunch (8 декабря 2011). Дата обращения: 27 декабря 2011. Архивировано из 17 мая 2012 года.

Same as Cloudera