Cloudera
- 1 year ago
- 0
- 0
Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop .
Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений . С бумом технологий « больших данных », Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса .
В 2018 году поглотила основного конкурента на рынке Hadoop-дистрибутивов — американскую компанию .
Компания была основана в октябре 2008 года в ( штат Калифорния ) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop . Основатели компании — ( англ. ), ранее работавший в Google , Амр Авадалла ( Amr Awadallah , вице-президент корпорации Yahoo , отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер ( Jeff Hammerbacher , менеджер проекта Hive в компании Facebook ) и ( Michael Olson ), вице-президент корпорации Oracle , ранее генеральный директор , разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle) . Хаммербахер организовал начальное финансирование проекта фондом Accel Partners , а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы ( Gideon Yu ) и Катерина Фейк ( Caterina Fake ) .
Среди нанятых в первые месяцы сотрудников были создатели Hadoop ( англ. ) и Майкл Кафарелла ( Mike Cafarella ), бывшие руководители компаний VMware (Дайен Грин, Diane Green ) и MySQL AB (Мартен Микос, Marten Mikos ) . Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop» .
В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek , а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году . При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций .
В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн , в декабре 2012 года — ещё $65 млн , среди инвесторов очередных раундов указываются Ignition Partners , Greylock , Accel , Meritech Capital Partners и In-Q-Tel .
В октябре 2012 года компания представила продукт Impala , обеспечивающий доступ на языке SQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL ( англ. old SQL , по созвучию со « старой школой » — old school) .
В июне 2013 года на должность генерального директора приглашён ( Tom Reilly ), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению , либо продаже бизнеса . Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx , основанную Шоном Оуэном ( Sean Owen ), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout , объявлено о назначении Оуэна на должность «директора по науке о данных » ( англ. director of data science) .
К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн , а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн . В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд ; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera . В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang .
В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже , в результате которого привлекла $215 млн . Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson , и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks .
В октябре 2018 года объявлено о слиянии с Hortonworks, притом структура сохранила наименование Cloudera, листинг на бирже и генерального директора, а акционеры Hortonworks получили 40 % акций объединённой компании . Сделка завершена 3 января 2019 года, несмотря на суммарную оценку двух компаний в момент объявления в $5,2 млрд, по её завершении капитализация объединённого бизнеса составила около $3 млрд . Поглощение фактически завершило этап консолидации на рынке коммерческих дистрибутивов Hadoop (из сколь-либо заметных других участников рынка осталась только компания с годовым оборотом около $175 млн за 2018 год), сместив фокус конкуренции на более широкие сегменты — инструментов больших данных и аналитических платформ .
В конце 2020 года компания совершила обратный выкуп акций у Intel за $314 млн (что на $426 млн дешевле инвестиций 2014 года) .
CDH ( англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутивов Linux ( Red Hat Enterprise Linux , CentOS , Ubuntu , SuSE SLES , Debian ). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: , HBase , Hive , Mahout , Oozie , , , , Zookeeper . Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager , включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах ( Rackspace , Amazon EC2 , ), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven .
К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса , притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle , а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN ), в состав CDH4 включены также три собственных продукта фирмы — (браузерный интерфейс управления Hadoop-кластером), Impala и (полнотекстовый и фасетный поиск в средах HDFS и HBase ). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров) .
— массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase , распространяется по лицензии Apache 2.0 . В отличие от Hive , обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce.
Cloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера . Для Cloudera Manager существует бесплатная редакция ( англ. free edition), работающая только на кластерах , состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos ).
Вслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных , с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase , и Spark ), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач « науки о данных »), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс на основе собственного компонента SDX).
Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Engineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub.
More big-funding deals have been struck since then, including $85 million for human-resources-software maker Workday Inc., $81 million for online file-sharing site Box.net Inc., $50 million for marketing company Marketo Inc. and $40 million for data-management company Cloudera Inc