Тема 3. Группировки
в исторических исследованиях.
1.
Общие понятия.
Изучая явления прошлого
по первичным статистическим данным, историк сталкивается с неупорядоченной
последовательностью чисел, характеризующих тот или иной процесс. Одним из более
распространенных приемов представления совокупности разрозненных данных в
удобной для восприятия форме выступает группировка. Она является
основным начальным этапом обработки данных.
Метод
группировки заключается в разбиении исходной
совокупности на группы, каждая из которых объединена общими показателями. Сгруп-пированные данные представляются
таблицами или графиками. Это позволяет охарактеризовать изучаемую совокупность
в целом и по частям, обнаружить и зафиксировать связи между признаками,
обеспечить наглядность.
Имеющийся у исследователя набор чисел
называется статистической совокупностью.
Количественные показатели, характеризующие рассматриваемый признак и
принимающие различные значения, называют вариантами
или переменными.
Например, личные карточки с указанием
возраста – статистическая совокупность. Возраст – рассматриваемый признак.
Конкретные значения для каждого студента – варианты или перменные.
Одна и та же варианта может встречаться
несколько раз. Частотой называют
величину, показывающую, сколько раз встречается то или иное значение
переменной.
Например, если 38 студентов
имеют возраст 23 года, это означает, что частота признака «возраст» при
переменной «23» равна «38».
Отметим, что в таблице оформляются не
только сгруппированные данные. Таблицы можно строить и на этапе формализации
содержательной стороны источника, что является первым этапом изучения вариации
признака. Сведения источника, расположенные в возрастающем или убывающем
порядке и оформленные в виде таблицы, называют ранжированным рядом.
2.
Требования к таблицам.
Для того, чтобы
сведенные в таблицу данные не теряли своего значения необходимо соблюдать
определенные правила при ее составлении:
1.
Каждая таблица должна иметь свой заголовок. При минимальном количестве слов он
должен полностью отражать внутреннюю структуру таблицы;
2.
В одной таблице не должно быть много признаков, что обеспечивает ее
наглядность;
3.
Имеет смысл объединить несколько граф в одну, под названием «прочие». Эта графа
должна охватить не более от общего числа наблюдения;
4.
Громоздкие числа принято округлять.
7,496 7,50
(до сотых)
763
800 (до сотен)
763 760 (до десятков)
5,673 5,7 (до десятых)
5,673 5,67 (до сотых);
5.
Каждая клетка таблицы должна соответствовать определенному числу.
___ |
… |
0,0 |
(Х) |
Х? |
Если сведений нет, то ставят прочерк или
троеточие. Если сведения есть, но выражены крайне малой величиной, то пишут
0,0. Если какое-либо значение получено автором в результате приближенных
вычислений, то его берут в круглые скобки. Если какое-либо значение вызывает
сомнение в достоверности, то рядом пишут знак вопроса. Следует избегать
включения в таблицу обыкновенных дробей. Целесообразно иногда в таких случаях
построить таблицы для числителей и знаменателей отдельно;
6.
Таблица сопровождается сносками (к строке, к столбцу) и примечаниями (к таблице
в целом). Если таблица авторская, то следует указать по каким
данным она составлена. Если взята в готовом
виде, то указывается источник.
3.
Формула Стерджесса.
Признаки, положенные в основу составления
таблиц, могут быть дискретными (принимающие только целые значения) и
непрерывными (значения которых сколь угодно мало отличаются)
В практике исторических исследований чаще
используют таблицы с интервальной разбивкой признака, так как даже дискретные по сути признаки обладают таким количеством
вариант, что составленная по ним таблица нарушает правило №3. Заметим, что для
дискретных признаков границы интервалов устанавливаются без совпадений.
Интервальные ряды используют, чтобы не
потерять информацию и в то же время составить компактную таблицу. При этом
возникает проблема определения границ интервалов. Необходимо найти оптимальное
число групп, количество интервалов признака и размер интервалов. Решение этой
задачи зависит от однородности рассматриваемой совокупности, свойств изучаемого
процесса и целей работы. Существует несколько способов определения оптимальной
величины интервала. Наиболее проста в употреблении формула Стерджесса:
К=
В ней: К-длина
интервала, Xmax-наибольшее значение
признака, Xmin-наименьшее значение
признака, n-число элементов совокупности.
Пример:
На предприятии работает 100 человек со стажем от 1го года до 42. Определить
оптимальную величину интервала для группировки по стажу .
К= =
Таким образом,
группировка имеет вид
стаж |
1- 6,5 |
6,5-12 |
12-17,5 |
….. |
Заметим, что для дискретных признаков границы
интервалов устанавливаются без совпадений: 9-15; 16-22; 23-28;… Кроме того,
интервалы могут быть и открытыми – когда указывается только нижняя или верхняя
границы.
4.
Виды группировок.
В науке различают 3 основных вида
группировок:
I. Типологические – расчленяют качественно-разнородную совокупность на
однородные группы, на типы. В основу группировки
закладывается качественные признак. Пример использования типологической
группировки- для анализа крестьянских хозяйств:
пролетарских, собственно-крестьянских и капиталистических. Пример
типологической группировки – распределение промышленности периода НЭП по
социальным секторам – государственная, кооперативная, частная.
II. Структурные
– качественно-однородная совокупность в виде количественных групп. В основу
этих группировок закладывается количественный признак. Примером может служить
распределение рабочих по стажу, по возрасту и т.п.
Деление группировок на типологические и структурные относительно и зависит от
характера задач. Например, если задать границы землепользования,
соответствующие определенным социальным группам крестьянства, то можно изучить
и структуру хозяйств по размерам землепользования и типы хозяйств. Таким
образом, отличие заключается в подразделениях группировочного
признака.
III. Аналитические
– позволяют установить и на определенном уровне изучить взаимосвязь между
признаками. Такие группировки еще называют факторными. Например, дана
группировка малых предприятий по размерам прибыли и продолжительности оборота
средств. Ясно, что при одном сроке оборота капитала предприятия могут иметь
разную прибыль. Следовательно, признак «оборачиваемость
средств» - фактор (или условие), а признак «прибыль» - результат.
Изучение и интерпретация данных аналитической группировки должны начинаться с
предварительного выяснения принципиальной возможности существования связи между
признаками.
5.
Динамические ряды.
Особое место среди группировок занимают
динамические ряды, которые отражают изменение явлений во времени. Динамические
ряды бывают моментные, в которых
время задано в виде конкретных дат – моментов времени, и интервальные, где время задано в виде промежутков. Показатели
динамического ряда называют уровнями.
К построению выдвигают следующие требования:
1. Однородность явлений
относительно каждой динамической группы- временный
интервал должен включать одни и те же явления;
2. Неизменность
территории – бывает, что статус территорий остается прежним, а границы
меняются;
3. Единство методологии
учета показателей. Уровни динамического ряда задаются либо относительными, либо
абсолютными, либо средними показателями.
Историки, имеющие дело с относительными
или средними величинами, обязаны проверить достоверность их возникновения.
Например, средняя урожайность крестьянских хозяйств в одни годы подсчитывалась
с посеянной площадью, а в другие – с убранной. Такие уровни несопоставимы,
включать их в один динамический ряд нельзя;
4. Временной
показатель, положенный в основу разбивки динамического ряда, должен иметь
сопоставимые временные промежутки - в случае его интервальной разбивки. (
Например, указывать в одной графе VI-VII
вв.,
а в другой – 998г. – нельзя.)