Меню

Как делать частотную таблицу

Построение частотных таблиц

date image2017-11-30
views image1747

facebook icon vkontakte icon twitter icon odnoklasniki icon

Лабораторная работа №2

Тема: Первичная обработка статистических данных в пакете SPSS Statistics 17.0. Одномерный анализ.

Цель: Формирование умений первичной обработки статистических данных. Выработка навыков работы в статистическом пакете SPSS Statistics 17.0.

Введение

Для того чтобы выполнить статистическое исследование, необходима научно-обоснованная информационная база. Она формируется в результате статистического наблюдения, которое является начальной стадией экономико-статистического исследования.

Статистическим наблюдением называется планомерный научно-обоснованный сбор данных или сведений о социально-экономических явлениях и процессах. В процессе обработки, анализа статистические данные становятся информацией. Не все данные, факты, собранные в процессе наблюдения, могут быть использованы для дальнейшего исследования. Они должны отвечать определенным требованиям. Важнейшими требованиями являются достоверность данных, сопоставимость данных или единообразие.

В данной работе проводится описательный (дескриптивный) анализ отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик и графическое представление.

Построение частотных таблиц

Полученные статистические данные необходимо ввести в первый столбец редактора данных. Чтобы указать наименование столбца и тип вводимых данных необходимо в редакторе данных (окно SPSS Statistics Data Editor) (рис.2) дважды щелкнуть на ячейке с надписью пер или щелкнуть на вкладке Переменные на нижнем краю таблицы. В обоих случаях вы перейдете в режим просмотра переменных.

Рис.2. Окно SPSS Statistics Data Editor

Чтобы задать имя переменной, введите в текстовом поле Имя выбранное имя переменной. Затем нажмите клавишу , чтобы подтвердить ввод и перейти к установке типа переменной.

Для построения вариационного ряда в меню Данные следует выбрать пункт Сортировать наблюдения. Эта функция упорядочивает значения случайной величины в порядке возрастания или убывания (рис.3).

Рис.3. Диалоговое окно «Сортировка наблюдений»

Первым этапом статистического анализа данных, как правило, является частотный анализ. Для построения частотной таблицы (в виде ряда распределения частот) применительно к вашим данным выберите в меню команды Анализ/Описательные статистики/Частоты.

В появившемся диалоговом окне Частоты (рис.4) выберите опцию Вывести частотные таблицы, кнопкой со стрелочкой перенесите изучаемую переменную в список выходных параметров и подтвердите операцию кнопкой OK.

Рис.4. Диалоговое окно «Частоты»

В окне просмотра результатов Вывод отобразится таблица частот. Перед самой частотной таблицей выводится небольшая таблица с обзором допустимых и отсутствующих значений.

Чтобы вывести частотную таблицу, отсортированную по убыванию частоты, поступите следующим образом:

· выберите в меню команды Анализ/Описательные статистики/Частоты,

· перенесите рассматриваемую переменную в список выходных переменных,

· при активной опции Вывести частотные таблицы щелкните на кнопке Формат.

· Откроется диалоговое окно Частоты: Формат (рис.5).

Рис.5. Диалоговое окно Frequencies:Format

В группе Упорядочить по выберите порядок, в котором будут отображены значения в частотной таблице. Возможны следующие варианты:

· По возрастанию значений. Это настройка по умолчанию.

· По убыванию значений.

· По возрастанию частот.

· По убыванию частот.

Кроме того, флажок Подавлять таблицы, если категорий больше, чем: позволяет избежать вывода длинных частотных таблиц.

· Выберите по Убыванию значений.

· Подтвердите выбор кнопкой Продолжить.

· Щелкните OK, чтобы начать вычисление. В результате частоты в таблице будут расположены в порядке убывания.

Источник



Частотные таблицы

6.1. Частотные таблицы

Первым этапом статистического анализа данных, как правило, является частотный анализ. В этой главе мы проведем частотный анализ на примере файла Studium.sav. Он содержит результаты опроса студентов об их психическом состоянии и социальном положении. Опрос касался таких предметов, как социальное положение, психическая ситуация и успеваемость. Кроме того, затрагивались такие данные, как изучаемый предмет, пол, возраст и национальность.

Сначала загрузите файл Studium.sav, выбрав команды меню File (Файл) / Open. (Открыть. ). Появится диалог Open File (Открыть файл).

Выберите указанный выше файл Studium.sav и подтвердите выбор кнопкой Open (Открыть). Файл появится в Редакторе данных.

Выберите в меню команды Analyze (Анализ) / Descriptive Statistics (Дескриптивные статистики) / Frequencies (Частоты). Появится диалоговое окно Frequencies (см. рис. 6.1).

Кнопкой с треугольником перенесите переменную psyche в список выходных переменных и подтвердите операцию кнопкой ОК.

Рис. 6.1: Диалоговое окно Frequencies (Частоты)

Результаты появятся в окне просмотра результатов. Перед самой частотной таблицей выводится небольшая таблица с обзором допустимых и отсутствующих значений. Здесь она не показана.

Psychische Lage (Психическое состояние)

Frequency (Частота) Percent (Проценты) Valid Percent (Допустимые проценты) Cumulative Percent (Накопленные проценты)
Valid (Допустимые) Äußerst Labil
(Крайне неустойчивое)
20 18,5 18,7 18,7
Labil
(Неустойчивое)
40 37,0 37,4 56,1
Stabil
(Устойчивое)
41 38,0 38,3 94,4
Sehr stabil
(Очень устойчивое)
6 5,6 5,6 100,0
Total
(Всего)
107 99,1 100,0
Missing (Отсутствующие) Keine Angabe
(Нет данных)
1 0,9
Total
(Всего)
108 100,0
Читайте также:  Таблица виды риска и примеры

Каждая строка частотной таблицы описывает одно возможное значение:

Строка с пометкой нет данных представляет наблюдения, в которых не было дано никакого ответа.

Всего имеется 107 допустимых ответов, а также одно наблюдение, в котором психическое состояние неизвестно (данные отсутствуют либо утеряны).

Первый столбец содержит метки отдельных значений (крайне неустойчивое, неустойчивое, устойчивое. ).

Во втором столбце под заголовком «Frequency (Частота)» приведена частота каждого из вариантов ответа на вопрос из теста. Так, к примеру, 20 человек на вопрос о психическом состоянии дали ответ: «крайне неустойчивое», а 40 человек — «неустойчивое».

В третьем столбце показана процентная частота каждого ответа. Процентная частота соответствует отношению каждого из вариантов ответа к общему количеству опрашиваемых, включая утерянные значения.

В четвертом столбце дано допустимое процентное значение. При определении этого значения утерянные данные исключаются.

Последний столбец содержит накопленные процентные значения. Накопленные проценты — это сумма процентных частот допустимых ответов. Так, например, процент респондентов, которые дали ответ крайне неустойчивое или неустойчивое, составляет 56,1%. Это число определяется выражением: 18,7% + 37,4% = 56,1%.

В последней строке содержится сумма всех столбцов (Всего).

Источник

Частотный анализ по интервалам функцией ЧАСТОТА (FREQUENCY)

При анализе данных периодически возникает задача подсчитать количество значений, попадающих в заданные интервалы «от и до» (в статистике их называют «карманы»). Например, подсчитать количество звонков определенной длительности при разборе статистики по мобильной связи, чтобы понимать какой тариф для нас выгоднее:

Частотный анализ функцией ЧАСТОТА (FREQUENCY)

Для решения подобной задачи можно воспользоваться функцией ЧАСТОТА (FREQUENCY) . Ее синтаксис прост:

=ЧАСТОТА( Данные ; Карманы )

  • Карманы — диапазон с границами интервалов, попадание в которые нас интересует
  • Данные — диапазон с исходными числовыми значениями, которые мы анализируем

Обратите внимание, что эта функция игнорирует пустые ячейки и ячейки с текстом, т.е. работает только с числами.

Для использования функции ЧАСТОТА нужно:

  1. заранее подготовить ячейки с интересующими нас интервалами-карманами (желтые F2:F5 в нашем примере)
  2. выделить пустой диапазон ячеек (G2:G6) по размеру на одну ячейку больший, чем диапазон карманов (F2:F5)
  3. ввести функцию ЧАСТОТА и нажать в конце сочетание Ctrl+Shift+Enter, т.е. ввести ее как формулу массива

Во всех предварительно выделенных ячейках посчитается количество попаданий в заданные интервалы. Само-собой, для реализации подобной задачи можно использовать и другие способы (функцию СЧЁТЕСЛИ, сводные таблицы и т.д.), но этот вариант весьма хорош.

Кроме того, с помощью функции ЧАСТОТА можно легко подсчитывать количество уникальных чисел в наборе с помощью простой формулы массива:

Источник

Как делать частотную таблицу

а) Дискретные данные. Частотная таблица — основной метод представления информации, содержащейся в выборке. Для дискретной одномерной случайной переменной [см. II, гл. определенной, скажем, на неотрицательных целых числах, — это просто таблица, указывающая, сколько раз число встречается в выборке или (что эквивалентно) указывающая отношение этого числа к объему выборки Эти числа называют соответственно частотой наблюдения и относительной частотой наблюдения Накопленная частота — число наблюдений х, для которых эти величины, деленные на объем выборки называются относительными накопленными частотами

Пример 3.2.1. Данные Резерфорда и Гейгера о числе а-частиц, испущенных радиоактивным источником за 7,5 с, содержатся в столбцах 1 и 3 табл. 3.2.1.

Таблица 3.2.1. (см. скан) Частотная таблица по данным Резерфорда и Гейгера

Основные сведения, а именно частоты, приведены в столбце 3. Общая сумма по этой колонке равна объему выборки . В таблицу, правда, не входят отдельно частоты Вместо этого приведена «группированная частота» выделенная как 2 в столбце частот 3. Это принятая практика в частотных таблицах — объединять таким образом малые частоты. В этой таблице только одна сгруппированная частота, но вообще их может быть и несколько.

Выборочный аналог п.р.в. Столбец 4 табл. 3.2.1 содержит величины относительных частот, выраженные в процентах от общего (Отмеченное звездочкой число 0,08 — это группированная частота выраженная в процентах от общего целого.) Таблица относительных частот — это выборочный аналог таблицы вероятностей [см. II, раздел 4.3.1] рассматриваемой случайной переменной R.

Накопленные частоты в столбце 5 являются частичными суммами столбца частот. Из-за группирования 12—14 пропадают значения но остается. Наконец, в последнем столбце приведены значения с в процентах от объема выборки. Естественно, последнее число здесь равно 100, поскольку 100% наблюдений удовлетворяют условию Этот столбец дает выборочный аналог ф.р. (функции вероятностей) [см. II, раздел 4.3.2] изучаемой случайной величины. (Столбец 1 нужен только ради нумерации строк.)

Читайте также:  Вес пэт бутылок таблица

В рассмотренном примере мы имеем дело с 13 частотами, скажем где

Выборочное распределение [см. раздел 2.2] этого вектора с 13 компонентами — полиномиальное [см. II, раздел 6.4.2]. Следовательно, математическое ожидание [см. раздел 2.3.1] частоты равно , где — объем выборки, а — вероятность того, что наблюдение попадает в ячейку . Аналогично математическое ожидание относительной частоты равно . В нашем примере, где — число частиц, испущенных в случайно выбранный интервал времени продолжительностью , мы получаем:

В настоящем случае разумно предположить, что имеет пуассоновское распределение [см. И, раздел 5.4]. Если бы частотная таблица не содержала никаких группированных частот, подходящей оценкой пуассоновского параметра X было бы значение среднего выборки. Объединение в принципе усложняет задачу оценивания, но сгруппированные частоты столь малы по отношению к объему выборки (2 и 2608), что интуитивно ясно — влияние группировки частот на величину оценки будет незначительным. Подсчеты с применением метода максимального правдоподобия подробно описываются в примере 6.7.1.

Для наших целей с достаточной степенью точности мы вычисляем оценку, которая должна быть средним значением выборки, так, как будто каждое группированное наблюдение попадает в среднюю клетку, т. е. Оценка в этом случае равна 3,871.

Ниже сопоставляются исходные частоты и их ожидаемые значения в случае выбранного модельного (пуассоновского) распределения. Это показано в табл. 3.2.2, где ожидаемые частоты округлены до ближайшего целого:

Видимое согласие между частотами и их ожидаемыми значениями служит хорошим подтверждением правильности выбора пуассоновского распределения. Такое же согласие обнаружилось бы и между относительными частотами и их ожидаемыми значениями это подтверждает, что относительные частоты служат естественным аналогом п.р.в. (Объективный критерий близости для наблюдаемого согласия рассмотрен в гл. 7.)

б) Столбцовые диаграммы и гистограммы для дискретных данных. Рассмотрим частотную таблицу, полученную на основе табл. 3.2.1 вычеркиванием строки, соответствующей ячейке 12. (Эту частотную таблицу мы получили бы, если бы не было зарегистрировано ни одного наблюдения, превышающего 11.) Такую частотную таблицу без группированных частот можно представить графически в виде столбцовой диаграммы, т. е. последовательностью вертикальных отрезков (ординат) длины с абсциссами Она представлена на рис. 3.2.1.

Для наглядности столбцы можно расширить до тех пор, пока они не станут касаться друг друга. Теперь частоту изображает прямоугольник высоты центр его основания — абсцисса левая и правая границы основания — [см. рис. 3.2.2]. Высота столбца численно равна площади прямоугольника: шкала высот превращается в шкалу площадей, так что полная частота события представляется суммой площадей прямоугольников с центрами в . Граф дает пример гистограммы для дискретных данных с равномерной группировкой.

Теперь предположим, что некоторые отдельные частоты объединены в группы (переход от табл.

3.2.3 к табл. 3.2.4). Здесь объединены ячейки, соответствующие равно как , а также r = 8, 9, и 11. Дополнительно включены данные для или 14, которые уже были сгруппированы в исходной частотной табл. 3.2.1. Для этой новой частотной таблицы с неравномерной группировкой графическая интерпретация сохраняет, насколько это возможно, основные черты рис. 3.2.2. Графическое представление объединенных

Рис. 3.2.1. (см. скан) Столбцовая диаграмма для табл. 3.2.3

Рис. 3.2.2. (см. скан) Столбцовая диаграмма для табл. 3.2.3, столбцы которой расширены

частот 57 и 203, соответствующих должно наглядно изображать слияние отдельных прямоугольников для в объединенный прямоугольник, высота которого равна среднему из отдельных высот. Кроме возможностей визуальной интерпретации, этот метод сохраняет удобную шкалу площадей рис. 3.2.3. Этот пример поясняет, как принятое ранее соглашение о том, как изображать гистограмму группированных дискретных данных, действует в случае неравномерной группировки. Гистограмма частотной табл. 3.2.4 показана на рис. 3.2.3.

Таблица 3.2.2. (см. скан) Сравнение частот с их ожидаемыми значениями [см. пример 3.2.1]

Рис. 3.2.3. (см. скан) Гистограмма для табл. 3.2.4

Таблица 3.2.3 (см. скан)

Таблица 3.2.4 (см. скан)

в) Непрерывные данные. Аналогичным образом, с чуть большей затратой труда, можно представить и непрерывные данные, т. е. наблюдения над непрерывной случайной величиной [см. II, раздел Чтобы образовать частотную таблицу по выборке из наблюдений над X, надо разделить отрезок значений выборки на ячеек, или интервалов разделенных границами

Читайте также:  Mfd date kia таблица

Первая, вторая ячейки есть интервалы Затем определяются частоты, т. е. количества наблюдений, попавших в различные ячейки:

Таблицы иногда строят по другому правилу: частота равна количеству наблюдений, для которых плюс половина числа наблюдений, которые (при принятой точности измерений) совпадали с или Примером может служить табл. 3.2.5.

Накопленные частоты определяются так:

Количество ячеек к и значения их границ в какой-то мере произвольны. В таблицах оно может быть результатом компромисса между требованиями экономии и точности. Часто размеры всех (или почти всех) интервалов группировки одинаковы, как в таблице, где рост измерен в дюймах, округленных до ближайшего целого числа. Неравные интервалы группировки тоже, впрочем, иногда оправданы. Например, в таблицах смертности от коклюша, где указан возраст умерших после достижения, скажем, 15 лет, многое зависит от возраста. Поэтому для возраста, превышающего 15 лет, оправданы широкие интервалы, например 5—10 лет. Напротив, высокая и заметно зависящая от возраста смертность малышей требует более узких интервалов: возможно, от 6 месяцев до 1 года.

Таблица 3.2.5. (см. скан) Частотная таблица, показывающая рост мужчин, интервалы группировки равные. Полуцелые частоты возникают, когда измерение попадает на границу интервала; по соглашению это увеличивает частоту интервала на 0,5 (воспроизведено с разрешения Macmillan Publishing Company. Statistical Methods for Research Workers. R. A. Fisher.

Примером частотной таблицы с неодинаковой шириной интервалов может служить табл. 3.2.6, полученная объединением ячеек табл.

3.2.4 (совместное выборочное распределение частот обсуждается в разделе 2.9.4).

Таблица 3.2.6. (см. скан) Таблица группированных частот с изменяющейся шириной интервалов. Данные взяты из табл. 3.2.5 и соответствуют разным способам выбора границ интервалов

Рис. 3.2.4. Гистограммы для таблицы частот, полученных группировкой непрерывных данных по интервалам неравной длины. Обе гистограммы построены по различным разбиениям одной и той же выборки (данные табл. 3.2.6)

Соответствующие гистограммы показаны на рис. 3.2.4.

г) Гистограммы для непрерывных данных. Наиболее информативной графической формой частотной таблицы является специальный график, называемый гистограммой. С ним мы впервые встретились на рис. 3.2.2 и 3.2.3 для дискретных данных. Чаще эта конструкция применяется к непрерывным данным. Гистограмма состоит из прямоугольников с основаниями высота которых пропорциональна Их площади, следовательно, пропорциональны частотам Поэтому площадь той части гистограммы, что лежит между абсциссами пропорциональна числу наблюдений х, таких, что Если выбрать единицу измерения так, чтобы общая площадь гистограммы оказалась равной 1, можно интерпретировать площадь между как грубую оценку Следовательно, гистограмма является выборочным аналогом графика плотности распределения вероятности

Примеры приведены на рис. 3.2.4.

д) Выборочный аналог функции распределения; вероятностная бумага. Подобно тому как в примере 3.2.1 относительные частоты представляют собой естественный выборочный аналог п.р.в., накопленные относительные частоты в том же примере образуют естественный выборочный аналог ф.р. [сокращения приведены в разделе 1.4.2]. Относительная накопленная функция r.c.f. частот определена для и равна:

Эту функцию называют также эмпирической функцией распределения. Редко привлекаемая в случае дискретных данных, она часто используется для непрерывных выборок как основа для глазомерных критериев и сравнений. С точностью до случайных колебаний эта функция совпадает (там, где она определена) с наблюдаемой случайной величины X [см. II, раздел 10.1.1].

Есть полезный графический прием, позволяющий судить о степени этого совпадения. Он основан на следующей идее. Поскольку — неубывающая функция, можно выбрать такую неоднородную шкалу на оси ординат, что график как функции х превратится в прямую линию. С помощью обычной равномерно разлинованной бумаги можно построить на оси ординат новую, уже не равномерную шкалу. Каждой точке оси ординат с координатой у из подходящего набора (скажем, ) приписываем значение в качестве ее метки. Затем строим график на этой, по-новому размеченной шкале. Если такова, что в ее явное выражение х входит в форме где — постоянные, то в указанном неравномерном масштабе график будет прямолинеен при любых Это очень удобно, поскольку график эмпирической функции распределения на таком планшете состоит из точек, лежащих вблизи прямой линии. Это позволяет (хотя и субъективно) каждому оценить на глаз, насколько хорошо ф.р. выборки приближается к гипотетической ф.р. [см. пример 3.5.1].

Бумага с подобной шкалой может использоваться для нормального (нормальная вероятностная бумага), логнормального (логарифмическая вероятностная бумага) и некоторых других распределений. Примеры работы с вероятностной бумагой приведены в книге [Hald (1952) — С].

Источник

Adblock
detector