Interested Article - Набор данных

Различные графики многомерного набора данных Ирисы Фишера представленного Рональдом Фишером (1936 год).

Набор данных ( data set или dataset ) — коллекция данных . В случае с табличными данными, набор данных соответствует одной или нескольким таблицам баз данных , где каждый столбец таблицы соответствует отдельной переменной , и каждая строка соответствует записи в наборе данных. Наборы данных хранят значения для каждой переменной, например высота и вес объекта для каждого члена набора данных. Наборы данных могут также состоять из коллекции документов или файлов.

В концепции открытых данных , набор данных — это единица измерения информации размещенных в публичном репозитории открытых данных. Европейский портал данных (data.europa.eu) агрегирует более миллиона наборов данных. Некоторые другие концепции ( , нереляционные наборы данных и т.д.) увеличивают сложность достижения соглашения об определении термина набора данных.

Свойства

Несколько характеристик определяют структуру и свойства набора данных. Они включают количество и типы атрибутов или переменных, и различные статистические измерения , применяемые к ним, такие как стандартное отклонение и эксцесс .

Значения могут быть числами, такими как вещественные числа или целые числа , например представляющими рост человека в сантиметрах, но могут также быть и номинальными данными (т.е. не содержащими числовых значений), например, отображающими этническую принадлежность человека. В более общем смысле, значения могут быть одним из видов, описываемых шкалой . Для каждой переменной все значения обычно одного и того же типа. Несмотря на это могут также существовать , которые должны быть обозначены некоторым способом.

В статистике наборы данных обычно поступают из фактических наблюдений, полученных путем выборки из генеральной совокупности , и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут также быть сгенерированы алгоритмами для целей тестирования определенного вида программного обеспечения . Некоторое современное программное обеспечение для статистического анализа, такое, например, как SPSS до сих пор представляет свои данные в классической манере набора данных. Если представлены недостающие или подозрительные данные, то может быть использован метод для дополнения набора данных.

Классические наборы данных

Несколько классических наборов данных широко используются в статистической литературе:

  • Ирисы Фишера — многовариантный набор данных, представленный Рональдом Фишером (1936 год).
  • MNIST (база данных) — изображения рукописных цифр, обычно используемых для тестирования алгоритмов классификации, кластеризации и обработки изображений.
  • — наборы данных, используемые в книге, Введение в категориальный анализ данных .
  • Робастность — наборы данных, используемые в книге ( и Лерой, 1968 год).
  • — данные, использованные в книге Чатфилда Анализ временных рядов ( The Analysis of Time Series ) предоставлены на сайте
  • Экстремальные значения — данные, использованные в книге, Введение в статистическое моделирование экстремальных значений ( An Introduction to the Statistical Modeling of Extreme Values ) , .
  • Байесовский анализ данных — данные, использованные в книге Байесовский анализ данных , одним из авторов книги.
  • — использованы в нескольких публикациях в литературе о машинном обучении (data mining).
  • Квартет Энскомба — небольшой набор данных, иллюстрирующий важность графического представления данных для избежания статистических заблуждений

См. также

Примечания

  1. Fisher, R.A. (1963). (PDF) . . 7 (2): 179—188. doi : . : . Архивировано из (PDF) 28 сентября 2011 . Дата обращения: 22 мая 2007 .
  2. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). . International Journal of Internet Science . 7 : 1—5. из оригинала 23 ноября 2019 . Дата обращения: 13 февраля 2023 .
  3. . European open data portal . European Commission. Дата обращения: 23 сентября 2016. 2 октября 2017 года.
  4. Atz, U (2014). (PDF) . CEDEM 2014 Proceedings . (PDF) из оригинала 20 августа 2016 . Дата обращения: 1 августа 2016 .
  5. Jan M. Żytkow, Jan Rauch. . — 2000. — ISBN 978-3-540-66490-1 .
  6. United Nations Statistical Commission. / United Nations Statistical Commission, United Nations Economic Commission for Europe. — United Nations Publications, 2007. — P. 20. — ISBN 978-9211169522 .

Ссылки

  • – the U.S. Government's open data
  • – the Global Change Master Directory containing over 34,000 descriptions of Earth science and environmental science data sets and services
  • – The Humanitarian Data Exchange (HDX) is an open humanitarian platform managed by the United Nations Office for the Coordination of Humanitarian Affairs .
  • – free public data published by New York City agencies and other partners.
  • – a wiki/website with links to data sets on many different topics
  • – a machine learning repository
  • – Free and open access to global development data by World Bank
Источник —

Same as Набор данных