База данных шахматных окончаний
- 1 year ago
- 0
- 0
Наука о данных ( англ. data science ; иногда даталогия — datalogy ) — раздел информатики , изучающий проблемы анализа , и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы , методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных .
Рассматривается как академическая дисциплина , а с начала 2010-х годов, во многом благодаря популяризации концепции « больших данных » , — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных ( англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий .
Началом формирования выделенной дисциплины считается 1966 год , когда был учреждён Комитет по данным для науки и техники (CODATA) , а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х ).
Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление и только в начале 2000-х стал общепризнанным прежде всего благодаря статье статистика Bell Labs (по состоянию на 2012 год — профессор статистики в Университете Пердью ), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы .
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер Колумбийского университета .
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы « больших данных », которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata , корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных . McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов , в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ .
В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных ( англ. sexy ) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях .
С 2013 учебного года Университет Данди , Оклендский университет , Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» ( англ. MSc Data Science & Management ) . В том же году Вашингтонский университет , Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области .
Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных , извлечение знаний из данных в обобщённой форме . Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна , на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта ( англ. substantive expertise ), практического опыта в информационных технологиях ( hacking skills ) и знания математической статистики .
В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления . В сравнении с классической статистикой , на методах которой во многом основывается наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку . В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных , отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence ), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании , и в целом более высокого образовательного уровня ( магистры , кандидаты наук , Ph.D в сравнении с бакалаврами и специалистами ) .
В курсе введения в науку о данных Вашингтонского университета , опубликованном в системе Coursera , выделены следующие разделы :
Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Имперского колледжа Лондона включает подготовительный курс «продвинутой статистики» ( англ. advanced statistics ). Непосредственно в курс по науке о данных входят следующие дисциплины:
После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками , управление активами и производные финансовые инструменты , а в консалтинговый — обработка больших массивов данных ( англ. large datasets ), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике , здравоохранении , политике .
Программа Университета Данди делает упор на « большие данные », прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных , моделировании баз данных и хранилищ , статистике , в рамках программы изучаются языки SQL , MDX , R , Erlang , Java , инструменты Hadoop и NoSQL .