Набор данных
(
data set
или
dataset
) — коллекция
данных
. В случае с табличными данными, набор данных соответствует одной или нескольким
таблицам баз данных
, где каждый
столбец
таблицы соответствует отдельной
переменной
, и каждая
строка
соответствует
записи
в наборе данных. Наборы данных хранят значения для каждой переменной, например высота и вес объекта для каждого члена набора данных. Наборы данных могут также состоять из коллекции документов или файлов.
В концепции
открытых данных
, набор данных — это единица измерения информации размещенных в публичном репозитории открытых данных.
Европейский портал данных
(data.europa.eu) агрегирует более миллиона наборов данных.
Некоторые другие концепции (
,
нереляционные
наборы данных и т.д.) увеличивают сложность достижения соглашения об определении термина набора данных.
Значения могут быть числами, такими как
вещественные числа
или
целые числа
, например представляющими рост человека в сантиметрах, но могут также быть и
номинальными данными
(т.е. не содержащими
числовых
значений), например, отображающими этническую принадлежность человека. В более общем смысле, значения могут быть одним из видов, описываемых
шкалой
. Для каждой переменной все значения обычно одного и того же типа. Несмотря на это могут также существовать
, которые должны быть обозначены некоторым способом.
В
статистике
наборы данных обычно поступают из фактических наблюдений, полученных путем
выборки
из
генеральной совокупности
, и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут также быть сгенерированы
алгоритмами
для целей тестирования определенного вида
программного обеспечения
. Некоторое современное программное обеспечение для статистического анализа, такое, например, как
SPSS
до сих пор представляет свои данные в классической манере набора данных. Если представлены недостающие или подозрительные данные, то может быть использован метод
для дополнения набора данных.
Классические наборы данных
Несколько классических наборов данных широко используются в
статистической
литературе:
MNIST (база данных)
— изображения рукописных цифр, обычно используемых для тестирования алгоритмов классификации, кластеризации и обработки изображений.
— наборы данных, используемые в книге,
Введение в категориальный анализ данных
.
Робастность
— наборы данных, используемые в книге
(
и Лерой, 1968 год).
— данные, использованные в книге Чатфилда
Анализ временных рядов
(
The Analysis of Time Series
) предоставлены на сайте
Экстремальные значения
— данные, использованные в книге,
Введение в статистическое моделирование экстремальных значений
(
An Introduction to the Statistical Modeling of Extreme Values
)
, .
Байесовский анализ данных
— данные, использованные в книге
Байесовский анализ данных
, одним из авторов книги.
— использованы в нескольких публикациях в литературе о машинном обучении (data mining).
Квартет Энскомба
— небольшой набор данных, иллюстрирующий важность графического представления данных для избежания статистических заблуждений
↑
Fisher, R.A. (1963).
(PDF)
.
.
7
(2): 179—188.
doi
:
.
:
. Архивировано из
(PDF)
28 сентября 2011
. Дата обращения:
22 мая 2007
.
Snijders, C.; Matzat, U.; Reips, U.-D. (2012).
.
International Journal of Internet Science
.
7
: 1—5.
из оригинала
23 ноября 2019
. Дата обращения:
13 февраля 2023
.
(неопр.)
.
European open data portal
. European Commission. Дата обращения: 23 сентября 2016.
2 октября 2017 года.
↑
Atz, U (2014).
(PDF)
.
CEDEM 2014 Proceedings
.
(PDF)
из оригинала
20 августа 2016
. Дата обращения:
1 августа 2016
.
United Nations Statistical Commission.
/ United Nations Statistical Commission, United Nations Economic Commission for Europe. — United Nations Publications, 2007. — P. 20. —
ISBN 978-9211169522
.
Ссылки
– the U.S. Government's open data
– the Global Change Master Directory containing over 34,000 descriptions of Earth science and environmental science data sets and services