Interested Article - Наука о данных

Наука о данных ( англ. data science ; иногда даталогия datalogy ) — раздел информатики , изучающий проблемы анализа , и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы , методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных .

Рассматривается как академическая дисциплина , а с начала 2010-х годов, во многом благодаря популяризации концепции « больших данных » , — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных ( англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий .

История

Началом формирования выделенной дисциплины считается 1966 год , когда был учреждён Комитет по данным для науки и техники (CODATA) , а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х ).

Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление и только в начале 2000-х стал общепризнанным прежде всего благодаря статье статистика Bell Labs en (по состоянию на 2012 год — профессор статистики в Университете Пердью ), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы .

В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер Колумбийского университета .

Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы « больших данных », которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata , корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных . McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов , в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ .

В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных ( англ. sexy ) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях .

С 2013 учебного года Университет Данди , Оклендский университет , Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» ( англ. MSc Data Science & Management ) . В том же году Вашингтонский университет , Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области .

Содержание

Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных , извлечение знаний из данных в обобщённой форме . Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна , на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта ( англ. substantive expertise ), практического опыта в информационных технологиях ( hacking skills ) и знания математической статистики .

В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления . В сравнении с классической статистикой , на методах которой во многом основывается наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку . В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных , отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence ), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании , и в целом более высокого образовательного уровня ( магистры , кандидаты наук , Ph.D в сравнении с бакалаврами и специалистами ) .

Академические программы

В курсе введения в науку о данных Вашингтонского университета , опубликованном в системе Coursera , выделены следующие разделы :

Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Имперского колледжа Лондона включает подготовительный курс «продвинутой статистики» ( англ. advanced statistics ). Непосредственно в курс по науке о данных входят следующие дисциплины:

После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками , управление активами и производные финансовые инструменты , а в консалтинговый — обработка больших массивов данных ( англ. large datasets ), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике , здравоохранении , политике .

Программа Университета Данди делает упор на « большие данные », прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных , моделировании баз данных и хранилищ , статистике , в рамках программы изучаются языки SQL , MDX , R , Erlang , Java , инструменты Hadoop и NoSQL .

Примечания

  1. , The term “data science” (together with “Datalogy”)….
  2. .
  3. .
  4. .
  5. .
  6. , p. 164.
  7. , «Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences».
  8. , The term “data science” (together with “Datalogy”) was first suggested by Peter Naur in the late 1960s.
  9. , «По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники».
  10. .
  11. , The term “data science” … was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”.
  12. (англ.) . O'Reilly Media (2012). Дата обращения: 2 января 2013. 26 января 2013 года.
  13. Simon Piff. (англ.) . Document at a Glance . IDC (1 июля 2012). Дата обращения: 8 декабря 2012. Архивировано из 26 января 2013 года.
  14. Manyika, James et al. (англ.) (PDF). McKinsey Global Institute, June, 2011 . McKinsey (9 августа 2011). Дата обращения: 12 ноября 2011. 11 декабря 2012 года.
  15. Steven Overly. (англ.) . Washington Post (16 сентября 2013). — «That demand was spelled out in a June 2011 report from the McKinsey Global Institute». Дата обращения: 31 декабря 2013. 13 марта 2016 года.
  16. , «Goldman is a good example of a new key player in organizations: the „data scientist.“ It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data».
  17. (англ.) . Business School . Imperial College (1 января 2013). Дата обращения: 18 января 2013. 29 января 2013 года.
  18. (англ.) . University of Washington (12 ноября 2013). Дата обращения: 31 декабря 2013. 25 декабря 2013 года.
  19. , с. 5.
  20. , Data science is the study of the generalizable extraction of knowledge from data.
  21. Впервые опубликована Дрю Конвеем ( Drew Conway ) в 2010 году
  22. .
  23. , A common epistemic requirement in assessing whether new knowledge is actionable for decision making is its predictive power, not just its ability to explain the past.
  24. , The short answer is data science is different from statistics <…> in several important ways <…> To start, the raw material, the “data”, part of data science, is increasingly heterogeneous and unstructured — text, images, video — often emanating from networks with complex relationships between their entities <…> most data generated by humans and computers today is for consumption by computers; that is, computers increasingly do background work for each other and make decisions automatically. This scalability in decision making has become possible because of big data that serves as the raw material for the creation of new knowledge.
  25. , с. 8.
  26. Bill Howe. . Coursera (8 декабря 2012). Дата обращения: 8 декабря 2012. 5 ноября 2012 года.
  27. (англ.) . School of Computing . Dundee University (1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013. Архивировано из 22 января 2013 года.

Литература

  • Наур, Петер . 1.8. A Basic Principle of Data Science // . — Lund , 1974. — 397 p. — (Studentlitteratur). — ISBN 91-44-07881-1 .
  • William S. Cleveland. (англ.) // International Statistical Review : Journal. — Willey & Sons, 2001. — Vol. 69, issue 1 . — P. 21—26 . — ISSN . — doi : . 5 мая 2012 года.
  • Mike Lukides. (англ.) . Radar . O’Reilly Media (2 июня 2010). Дата обращения: 2 января 2013. 26 января 2013 года.
  • Steve Lohr. (англ.) . The New York Times (5 августа 2009). Дата обращения: 2 января 2013. 26 января 2013 года.
  • F. Jack Smith. (англ.) . Data Science Journal, Volume 5, 19, p. 163—164 . CODADA (19 октября 2006). Дата обращения: 2 января 2013. Архивировано из 26 января 2013 года.
  • Thomas H. Davenport, D. J. Patil. (англ.) . Harvard Business Review . Harvard University Press (1 октября 2012). Дата обращения: 2 января 2013. 26 января 2013 года.
  • Gil Press. (англ.) . Forbes (27 сентября 2012). Дата обращения: 2 января 2013. 26 января 2013 года.
  • Vasant Dhar. Data Science and Prediction (англ.) // Communications of the ACM . — 2013. — Vol. 56 , no. 12 . — P. 64—73 . — ISSN . — doi : .
  • Леонид Жуков. (PDF). Материалы конференции «Большие данные в национальной экономике» . Открытые системы (28 октября 2013). Дата обращения: 31 декабря 2013.
  • Журавлёва Е. Ю. . Вопросы философии , № 2, 2012, с. 113—123 (1 марта 2012). Дата обращения: 4 декабря 2012.
Источник —

Same as Наука о данных