Вариационный ряд

Понятие вариационного ряда. Первичные статистические данные, с которыми имеет дело историк, часто представлены неупорядоченной последовательностью чисел, характеризующей ту или иную сторону процесса или явления. В этой совокупности чисел бывает трудно разобраться, и первичная обработка материалов сводится к приведению имеющихся данных к виду, удобному для анализа.

Пример 1. При обследовании студентов первого курса по возрасту были зафиксированы следующие данные:

17 18 18 18 19 18 20 20 19 18 18 21 19 22 23 18 19 19 19 21 21 18 18 18 18 22 19 18 20 18 19 18 20 19 21 20 22 18 19 21 19 19 22 23 19 20 21 22 17 19.

1Полученный в результате обследования набор чисел будем в дальнейшем называть статистической совокупностью, а сами числа, показывающие изменение (вариацию) подлежащего изучению признака, - вариантами (обозначим их хi, где i - номер варианта)

Если упорядочить совокупность исходных данных в убывающем или возрастающем порядке, то получим так называемый ранжированный ряд.

Используем для упорядоченной таким образом совокупности более компактную запись (см. табл. 1) В первой колонке поставим различающиеся по величине варианты, расположив их в возрастающем порядке, во второй - числа, показывающие, сколько раз (или как часто) встречаются отдельные значения вариант (назовем их частотами и обозначим ni)

Полученный ряд называется вариационным. Сведение первичных данных в вариационный ряд облегчает анализ совокупности так, например, видно, что в обследованной группе чаще встречаются студенты в возрасте 18-19 лет, меньше всего студентов с крайними для данной группы значениями возрастов (17 лет, 23 года). Кроме того, вариационный ряд является исходным материалом для большинства методов математической статистики.

При построении вариационного ряда можно приписывать вариантам не частоты, а рассматривать доли каждой варианты во всей совокупности. Они вычисляются как отношения соответствующих частот к объему всей совокупности и называются частостями (обозначим их qi). Частости могут быть выражены в относительных числах или процентах (см. табл.1).

Дискретный и интервальный вариационные ряды. Изменение признака, по которому обследуются объекты, может быть дискретным и непрерывным. Дискретной вариацией признака называется такая, при которой отдельные значения варианты отличаются на некоторую конечную величину. В приведенном примере вариация признака зафиксирована как дискретная (отдельные значения варианты отличаются на единицу). Вариация называется непрерывной, если отдельные значения признака могут отличаться друг от друга на сколько угодно малую величину. Примером непрерывной вариации признака служит распределение посевных площадей по урожайности.

В зависимости от вида вариации различают дискретные и интервальные вариационные ряды. Дискретный признак служит основой для построения дискретного ряда (см. табл. 1). В случае непрерывного признака варианты объединяют в интервалы, образуя интервальный ряд.

В практике исторических исследований непрерывные вариации признака встречаются сравнительно редко, тем не менее, интервальные ряды имеют большое значение в обработке исторических данных. Дело в том, что некоторые признаки, принципиально являясь дискретными, принимают такое большое количество значений, что составленный по ним дискретный ряд является практически необозримым, при этом весьма затрудняется дальнейший его анализ. В такой ситуации прибегают к построению интервального ряда (см. табл. 2).

В интервальном вариационном ряду частоты относятся не к какому-либо отдельному значению признака, а ко всему интервалу. Часто в ходе исследования возникает необходимость интервальный ряд рассматривать как дискретный. В таких случаях за значение признака в интервале берут середину этого интервала (центральное значение).

Принципы построения интервального ряда. Первым шагом при построении интервального вариационного ряда является выбор определенного принципа, который кладется в основу построения интервального ряда. Выбор этого принципа зависит от степени однородности рассматриваемой совокупности.

Ели совокупность однородна, то при построении ряда используют принцип равных интервалов. При этом вопрос об однородности решается содержательным анализом изучаемых явлений.

Следует отметить, что принцип равных интервалов примечается также в тех случаях, когда признак изменяется значительными скачками, природа которых неясна.

Пример 2. Приведем пример вариационного интервального ряда, построенного по принципу равных интервалов (см. таблицу 2).

Если совокупность не совсем однородна, то при построении ряда используют принцип неравных интервалов, при этом стремятся добиться качественной однородности объектов внутри интервалов, например, при построении вариационного ряда распределения в городов и поселков городского типа по числу жителей, применив принцип равных интервалов, мы вынуждены образовать, скажем, такие интервалы: до 50 тыс. жителей, от 50 тыс., до 100 тыс. и т. д., от 450 тыс. до 500 тыс., 500 тыс. и более. Но различия между населенными пунктами, имеющими 3 тыс. жителей и 50 тыс. жителей, безусловно, существеннее, чем такие же по абсолютной величине различия между городами, насчитывающими 453 тыс. и 500 тыс. жителей. Очевидно, что эти данные целесообразно свести в вариационный ряд с неравными интервалами (см. табл. 3), которые объединяют схожие по размерам города и поселки.

Но не всегда удается получить удовлетворительные результаты и с помощью неравных интервалов. Тогда в основу построения интервального ряда кладется социально-экономический критерий, который призван определить типы, однородные в социально-экономическом отношении. Социально-экономический анализ направлен на то, чтобы определить границы интервалов там, где количественное изменение признака приводит к появлению нового качества. Подобный принцип носит название типологического.

Широко использовал типологический принцип в своих статистических исследованиях В. И. Ленин. В частности, анализируя данные германской сельскохозяйственной переписи 1907 г., Ленин вместо 18 групп-интервалов по обеспеченности землей, построенных официальной статистикой, выделил три социально отличные группы хозяйств: пролетарские, крестьянские и капиталистические. Такое выделение позволило выявить степень развития капитализма в сельском хозяйстве Германии (См.: Ленин В. И. Поли. собр. соч., т. 19, с. 326-330.).

Наконец, еще более тонким способом группировки является способ специализированного интервала, идея которого принадлежит В. И. Ленину. Суть этого метода заключается в том, что совокупность разбивается на однородные группы (отрасли, типы хозяйства и т. п.) и для каждой группы утроится своя шкала интервалов.

Обратимся к работам В. И. Ленина, в которых он неоднократно указывал на необходимость использования этого способа группировки материала. Так, рассматривая аграрный вопрос в России к концу XIX в., Ленин писал: "Нельзя брать одинаковую мерку крупного и мелкого хозяйства для степного посевщика, для огородника, для табаковода, для "молочного фермера"..." (Ленин. В. И. Полн. собр. соч., т. 17, с. 121). В работе "Развитие капитализма в России" Ленин дает пример конструктивного подхода к проблеме группировки. Анализируя данные подворных переписей кустарей в Московской губернии, В. И. Ленин выделяет три типа ("разряда") кустарных заведений: низший, средний и высший. При этом, утверждает Ленин, "...необходимо было в различных промыслах брать различные основания для разделения кустарей на разряды, напр., в очень мелких промыслах относить к низшему разряду заведения с 1 рабочим, к среднему-с 2-мя, к высшему-с 3-мя и более, а в более крупных промыслах к низшему - заведения с 1-5 рабочими, к среднему с 6-10 и т. д. Без применения различных приемов группировки мы не могли бы представить по каждому промыслу данных о заведениях различной величины" (Ленин В. И. Полн. собр. соч., т. 3, с. 342-343).

Для того чтобы построить интервальный ряд, после выбора принципа построения нужно определить величину интервала. Величина интервала должна быть такой, чтобы, с одной стороны, ряд не оказался слишком громоздким и, с другой стороны, в нем не исчезали бы особенности изучаемого явления. Величина интервала для ряда с равными интервалами определяется соотношением

h=R/k, (4.1)

где R-размах вариации; k-количество интервалов.

Для ранжированного ряда легко посчитать размах вариации, т. е. разность между на и большим и наименьшим значениями признака: R=xmax.- xmin, где xmax - наибольшее в ряду значение варианты; xmin - наименьшее значение варианты.

Тогда для подсчета величины интервала достаточно определить количество интервалов. Вопрос о количестве интервалов решается исследователем в каждом конкретном случае в зависимости от поставленной задачи и особенностей исходных данных.

Величину интервала можно подсчитать и непосредственно. Для ряда с равными интервалами может быть предложена следующая приближенная формула для "оптимальной" (наилучшей) величины интервала:

где n-объем совокупности (число элементов совокупности); lgn-десятичный логарифм числа n.

Пример 3. Пусть статистическая совокупность состоит из 400 элементов, наибольшее значение варианты равно 65, наименьшее-5, т. е. в наших обозначениях n=400, xmax=65, xmin=5. Определить величину интервала для этих данных.

Воспользовавшись таблицей логарифмов и подставив исходные значения вформулу для оптимальной величины интервала - формулу (4.2), получим

Определение величины интервала для ряда, в основу построения которого положен не принцип равных интервалов, должно базироваться на знании исходного материала, универсальных рекомендаций в этом случае дать не возможности.

Закономерность распределения признака. Анализ вариационного ряда начинается с выявления зависимости между вариантами и частотами (частотами).

В случае неравных интервалов закономерность соотношения между вариантами и частотами (частотами) может не проявиться или же иметь искаженный вид. Поэтому для рядов с неравными интервалами необходимо обеспечить сравнимость частот (частоты), что достигается вычислением плотности распределения.

Плотность распределения рассчитывается как отношение частоты (ni) или частоcти (qi) к величине соответствующего интервала (hi). В зависимости от того, какое берется соотношение, различают абсолютную и относительнуюплотности распределения:

где fia- абсолютная плотность распределения; fio-относительная плотность распределения.

Пример 4. В табл. 4 дано распределение крестьянских хозяйств Актюбинского уезда по величине посева. Анализируя изменение частоты, мы заметим, что самой многочисленной является группа хозяйств, имеющих размер посева от 5 до 10 дес. Примерно в полтора раза меньше хозяйств с посевом от 3 до 5 дес. Группа хозяйств с размером посева от 15 до 25 дес. превосходит группу хозяйств, засевающих от 10 до 15 дес. Эти выводы верны для групп, но не могут дать верного представления о фактическом распределении признака. Дело в том, что группы (интервалы), которые мы рассматриваем, неодинаковы, более крупные из них уже в силу своей величины могут содержать в себе большее число хозяйств, чем менее крупные. Чтобы избавиться от искажающего влияния неравных интервалов и сделать частоты сопоставимыми, рассчитаем плотности распределения, т. е. вычислим, сколько хозяйств приходится на единицу интервала (столбец 4-й табл. 4).

После обеспечения сравнимости частот видим несколько иную картину. Плотность, возрастая, достигает максимального значения на интервале 3-5 и затем постепенно убывает. Значит, самой многочисленной в переводе на единицу группировочного признака является группа хозяйств с посевами от 3 до 5 дес.

Однако и в случае, когда сравнимость обеспечена, закономерность ряда, если даже таковая имеется, не всегда выступает как очевидная. Так, при небольшом числе наблюдений часто не удается получить явно выраженную закономерность. Иногда помочь ее выявлению может укрупнение интервалов.

Представляет интерес и обратное укрупнению интервалов преобразование - расщепление интервалов. Потребность в расщеплении интервалов возникает, например, тогда, когда сопоставляются два вариационных ряда, построенных для одинаковых признаков, но с разными интервалами либо достроенных для разных признаков.

Расщепление интервалов. Существуют способы расщепления интервалов, используемые при различных предположениях относительно распределения признака. Мы ограничимся рассмотрением простейшего-случая, когда признак в интервалах распределен равномерно (Способы расщепления интервалов в предположении, что, признав, изменяется по параболе 2-го порядка, изложены в кн.: Венецкий И. Г., Кильдишев Г. С. Основы теории вероятностей и математической статистики. М., 1968).

По существу, из этого исходил и В. И. Ленин при обработке материалов земской статистики. Эти материалы имели тот недостаток, что были сгруппированы по разным признакам: в одних уездах данные группировались по количеству обработанной земли, в других - по посевной площади, в третьих - по рабочему скоту и т. д.

"Для того чтобы сравнить между собою и свести воедино вышеприведенные данные о разложении крестьянства, мы не можем, очевидно, брать абсолютные цифры и складывать их по группам: для этого требовались бы полные данные по целой группе районов и одинаковость приемов группировки. Мы можем сравнивать и сопоставлять только отношения между группами высшими и низшими (по владению землей, скотом, орудиями и т. д.). Отношение, выраженное, например, тем, что 10% дворов имеют 30% посева, абстрагирует различие абсолютных цифр и потому годно для сравнения со всяким подобным отношением любой местности. Но для такого сравнения надо выделить в другой местности тоже 10% дворов, не больше и не меньше. Между тем размеры групп в разных уездах и губерния не равны. Значит, приходится дробить эти группы, чтобы: взять по каждой местности одинаковую процентную долю дворов. Условимся брать 20% дворов для зажиточного крестьянства и 50% -для несостоятельного, т. е. будем составлять из высших групп группу в 20% дворов, а из низших групп - группу в 50% дворов" (Ленин В. И. Поли. собр. соч, т. 3, с. 119-120).

В. И. Ленин поясняет используемый им прием дробления (расщепления) интервалов на условном примере. Пусты, имеется пять групп такого размера от низшей к высшей: 30, 25, 20, 15 и 10% дворов, им соответствуют такие процентные доли посева: 15, 20, 20, 21 и 24%. Для того чтобы в низшей группе было 50% дворов, необходимо к первой из пяти групп прибавить 20% из второй группы, т. е. 4/5 второй группы: 30+25*4/5=50%.

Чтобы соотношение между группами не изменилось (здесь мы пользуемся предположением о том, что признак распределен равномерно), нужно из процентной доли посева второй группы выделить также ее и присоединить к первой группе: 15+20o4/5=31%.

"Подобный прием, - отмечает В. И. Ленин, - допускает небольшую ошибку, вследствие которой разложение представляется более слабым, чем оно есть на самом деле. Именно: к высшей группе прибавляются средние, а не высшие представители следующей группы; к низшей группе прибавляются средние, а не низшие представители следующей группы. Ясно, что эта ошибка тем больше, чем крупнее группы, чем меньше число групп" (Ленин В. И. Поли. Собр. соч., т. 3, с. 120).

Основные характеристики вариационного ряда

Построение вариационного ряда является только первым шагом в изучении статистических данных. Для более глубокого исследования материала необходимы обобщающие количественные показатели, вскрывающие общие свойства статистической совокупности. Эти показатели, во-первых, дают общую картину, показывают тенденцию развития процесса или явления, нивелируя случайные индивидуальные отклонения, во-вторых, позволяют сравнивать вариационные ряды и, наконец, используются во всех разделах математической статистики при более полном и сложном математическом анализе статистической совокупности.

Существуют две группы характеристик вариационного ряда: 1) меры уровня, или средние, 2) меры рассеяния.

Меры уровня, или средние. Наиболее употребительными в статистических исследованиях являются три вида средних: средняя арифметическая, мода и медиана.

Выбор типа средней для характеристики вариационного ряда зависит от цели, для которой исчисляется средняя, от особенностей исходного материала и от возможностей той или иной средней.

Прежде чем перейти к характеристике отдельных видов средней, сформулируем некоторые, самые общие требования к средней.

Средняя, представляет собой количественную характеристику качественно однородной совокупности. Нарушение этого требования приводит к неверным выводам, искажает суть явления.

Приведем пример, рассмотренный В. И. Лениным. Исследуя арендные отношения в крестьянских хозяйствах Таврической губернии, В. И. Ленин установил, что среди бедняцких элементов деревни в среднем на одно хозяйство арендовалось 2,4 дес. земли, а среди кулацких элементов - 48,6 дес. Формальный подход дает математически верную среднюю для всех крестьянских хозяйств- 12,4 дес. Но подобная средняя является совершенно фиктивной. "Не смешно ли брать "средний" размер аренды, складывая вместо крестьян, из которых один берет 2 десятины, за безумную - цену (15 руб.), очевидно, из крайней нужды, на разорительных условиях. А другой берет 48 десятин, сверх достаточного количества своей земли, "покупая" землю оптом несравненно дешевле, по 3,55 руб. за десятину?" (Ленин В. И. Поли. собр. соч., т. 3, с. 73).

Кроме того, необходимо, чтобы средняя не была слишком абстрактной, а имела ясный смысл в решении задачи.

Далее, желательно, чтобы процедура вычисления средней была проста. При прочих равных условиях предпочтение отдается той средней, которая проще вычисляется.

И, наконец, при выборе средней желательно свести к минимуму влияние случайных колебаний выборки. Так, если одной и той же совокупности взять несколько групп элементов, то средние, им соответствующие, будут, как правило, различаться по величине. Рекомендуется использовать вид средней, у которой эти различия минимальны (подробнее о выборке и выборочной средней см. гл. 5 данного раздела).

Наиболее распространенной мерой уровня - является средная арифметическая:

где - знак суммирования от 1 до k; xi-варианты с порядковым номером i; - объем совокупности (число элементов совокупности); ni- частота варианта xi, k - число варианта. Если вместо частоты заданы частости qi, то формула имеет вид

Пример 5. Вычислим среднюю арифметическую для данных табл.

Средняя арифметическая интервального вариационного ряда вычисляется следующим образом: за значение признака принимается середина интервала (центральное значение), которая рассчитывается как арифметическая средняя границ интервала. Часто вычисление средней арифметической для интервального вариационного ряда осложняется тем, что неизвестны или нижняя граница первого интервала, или верхняя граница последнего интервала, или та и другая одновременно. В таких случаях иногда (Впрочем, в таких случаях часто отказываются oт исчисления средней арифметической, заменяя ее модой или медианой) условно предполагают, что интервальная разность неопределенного интервала такая же, что и у рядом стоящего, и на основе этого предположения устанавливают границы крайних интервалов.

Пример 6. Вычислим средние размеры наделов крестьян по данным табл. 5.

Для решения задачи, прежде всего, необходимо найти середины интервалов. Определенная трудность возникает в связи с тем, что первый и последний интервалы являются открытыми. Нижнюю границу первого интервала естественно принять равной нулю. Тогда середина этого интервала равна (0+2)/2=l. Для нахождения центрального значения последнего интервала применим предложенный выше прием. Величина интервала, предшествующего последнему, равна 2. Условно принимаем за величину последнего интервала 2. Тогда верхняя граница того интервала-9 и, следовательно, его середина вычисляется так: (7+9)/2=8.

Пользуясь формулой средней арифметической (4.4а) и принимая за значение признака середину интервала (строка 2 табл. 5), рассчитываем средний дореформенный надел у барщинных крестьян:

Аналогично вычисляется средний дореформенный надел у оброчных крестьян: .

Кроме средней арифметической широкое распространение имеет другой вид мер уровня - медиана.

Медианой (обозначим Mе) называется такое значение варьирующего признака, которое приходится на середину вариационного ряда.

При нахождении медианы дискретного вариационного ряда могут возникнуть два случая: 1) число вариант нечетно (k=2m+1), 2) число вариант четно (k=2m). В первом случае Me=xm+1, т. е. медиана равна центральной (срединной) варианте ряда, во втором случае Me,=(xm+xm+1)/2, т.е. медиана принимается равной полу сумме находящихся в середине ряда вариант.

Пример 7. Пусть дан ряд с нечетным числом вариант:

x1

x2

x3

x4

x4

x4

x4

x4

x4

8

9

11

12

15

16

18

19

19

Тогда число вариант, равное 9, представимо в виде 2m+1=9, откуда 2m=8, m=4, т.е.Me=x4+1=x5=15.

Рассмотрим случай четного числа членов:

Для интервального вариационного ряда медиана вычисляется по формуле

где xMe(min)-нижняя граница медианного интервала; h - величина этого интервала, или интервальная разность; qi- частоты или частости; - накопленная сверху частота (или частость) интервала, предшествующего медианному; частота или частость медианного интервала.

Содержание введенных обозначений и процедуру вычислений рассмотрим на конкретном примере.

Пример 8. Вычислим медиану по данным табл. 6.

Вычисление медианы начинается с нахождения интервала, содержащего медиану. Медианному интервалу соответствует первая из накопленных частот или частостей, превышающая половину всего объема совокупности. В нашем случае объем совокупности равен 100%, первая из накопленных частостей, превышающая половину всего объема совокупности, - 60,1 (см. табл. 6). Следовательно, интервал 8-12 будет медианным. Далее, xme(min)=8, h=4, =41, qMe=19.1. Воспользуемся формулой (4.5):

Таким образом, серединный размер посева равен примерно 9,9 дес.

Медиану можно использовать в тех случаях, когда изучаемая совокупность неоднородна, и в такой ситуации она будет иметь вполне конкретный смысл. Так, в рассмотренном примере значение медианы имеет следующий смысл: у одной половины хозяйств размер посева меньше, у другой половины - больше, чем 9,9 дес.

Особо важное значение медиана приобретает при анализе асимметричных рядов, т. е. рядов, у которых нагружены (имеют большие частоты) крайние или близкие к крайним значения вариант. Например, медиана даст более верное представление о среднем уровне личных доходов группы семей в капиталистических странах, чем средняя арифметическая, так как медиана не столь чувствительна к край ним (нетипичным в плане постановки задачи) значениям (семьи с большим доходом), как средняя арифметическая.

Медиану следует применять, если вычисление средней арифметической неправомерно вследствие неопределенности интервалов (первого или последнего, или того и другого вместе).

К достоинствам медианы следует отнести также то, что она менее подвержена случайностям выборки, чем средняя арифметическая.

Медиану не следует использовать, когда число наблюдений невелико.

Наряду со средней арифметической и медианой важное значение как мера уровня имеет мода.

Модой (обозначим Мо) называется варианта, наиболее часто встречающаяся в данном вариационном ряду.

Для дискретного ряда мода равна варианте с наибольшей частотой или частостью.

Для интервального вариационного ряда модальный интервал, т. е. интервал, содержащий моду, определяется по наибольшей' частоте (частости) в случае равных интервалов и по наибольшей плотности в случае неравных интервалов. Значение варианты, равное моде, отыскивается приближенными методами.

Довольно грубое приближение можно получить, взяв за моду центральное значение модального интервала, т. е. среднее арифметическое границ интервала.

Пример 9. Вычислим моду по данным табл. 6. В последнем столбце табл. 6 вычислены плотности распределения.

Наибольшая плотность соответствует интервалу 4-8. Это и есть модальный интервал.

Рассчитываем моду:

Mo=(4+8)/2=6 (дес.).

Таким образом, получаем, что наиболее типичным по размеру посева хозяйством русских переселенцев, Чимкентского уезда в 1908 г. было хозяйство, засевавшее 6 дес. земли.

Моду можно вычислить также как взвешенную среднюю арифметическую из нижней и верхней границ модального интервала (весами в расчете будут служить частоты или частости интервалов предмодального и послемодального). При этом если ряд построен правильно (см. принципы построения вариационного ряда) и интервалы, соседние с модальными, мало отличаются друг от друга, т. е. распределение близко к симметричному, то этот способ дает хорошие результаты.

Воспользовавшись вторым методом исчисления моды, рассчитаем наиболее типичный размер посева по данным табл. 6:

(дес.)

Мода имеет те же достоинства, что и медиана. Мода и медиана эффективно используются в качестве мер уровня, но сравнительно со средней арифметической реже употребляются как исходный материал для более сложных методов математической статистики.

Меры рассеяния. Рассмотренные выше средние показывают уровень вариационного ряда, другими словами, позволяют ряд чисел охарактеризовать одним числом. Однако средние не содержат в себе информации о том, насколько хорошо они представляют всю совокупность. Одинаковые или близкие по величине средние могут относиться к весьма различным рядам. Для пояснения этого положения рассмотрим условный пример.

Пример 10. В табл. 7 приведены данные о возрасте (для простоты число их невелико).

Рассчитав, получаем, что средний возраст в 1-й и 2-fi группах одинаков и равен 36. Но простейшее сравнение этих двух рядов показывает, что одинаковые средние представляют две совершенно различные по возрастному составу группы, а именно: в 1-ю группу входят люди в зрелом возрасте, тогда как во 2-ю-старики и дети. Иначе говоря, варианты первого ряда довольно тесно группируются вокруг своей средней, т. е. средняя представительна, тогда как во втором ряду обнаруживается сильный разброс (рассеяние) вариант. Чтобы отметить подобные различия, в статистике прибегают к расчету показателей, характеризующих рассеяние признака (мер рассеяния).

Рассмотрим основные меры рассеяния: размах вариации, дисперсию и среднее квадратичное отклонение.

Размах вариации показывает разность между наибольшим и наименьшим значениями признака (R=xmax-xmin). Достоинством этого показателя является простота расчета. Однако возможности его применения ограничены, так как эта характеристика является наиболее грубой из всех мер рассеяния.

Во-первых, при расчете этого показателя рассеяния признака используются только крайние значения признака, остальные же во внимание не принимаются. Во-вторых, размах вариации существенно зависит от случайных колебаний выборка.

Более ценными для характеристики рассеяния признака являются показатели, при расчете которых используются отклонения всех вариант от некоторой средней (например, средней арифметической, медианы). К таким мерам рассеяния, в частности, относятся дисперсия и среднее квадратичное отклонение. Последние меры рассеяния меньше любой другой меры подвержены случайным колебаниям выборки. Среднее квадратичное отклонение и дисперсия нашли широкое применение почти во всех разделах математической статистики.

Дисперсия, или средний квадрат отклонения (обозначим σ2) есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической, т. е. в математической записи

где xi-варианта с порядковым номером i; - средняя арифметическая; k- число вариант; qi-частота или частость с порядковым номером I.

Часто для исследования удобно представлять меру рассеяния в тех же единицах измерения, что и варианты. Тогда вместо дисперсии используют среднее квадратичное отклонение, которое является квадратным корнем из дисперсии, т. е. среднее квадратичное отклонение вычисляется по формуле

Пример 11. Рассмотрим распределение дореформенного надела у крестьян Симбирской губернии отдельно для группы барщинных и группы оброчных крестьян (пример 6). Средние величины дореформенных наделов для обеих групп крестьян оказались практически равными (4,018 дес. у барщинных и 3,976 у оброчных). Выясним, насколько одинаковой была вариация показателей в этих группах. С этой целью вычислим средние квадратичные отклонения по совокупности барщинных и по совокупности оброчных крестьян.

Для вычисления средних квадратичных отклонений удобно составить вспомогательную таблицу (табл. 8). В ней зафиксированы все промежуточные расчеты. Подставляя результаты этих расчетов в формулу (4,7), получим среднее квадратичное отклонение для барщинных крестьян:

и среднее квадратичное отклонение для оброчных крестьян:

т е. колебание признака у оброчных крестьян примерно в полтора раза больше, чем у барщинных.

Таким образом, средняя величина дореформенного надела у барщинных и оброчных крестьян Симбирской губернии почти одинакова, т. е. в среднем эти группы крестьян по обеспеченности землей практически не отличаются. Но в среде оброчных крестьян различия в размере наделов больше, чем среди барщинных крестьян.

Рассмотренные выше меры рассеяния (размах вариации, дисперсия, среднее квадратичное отклонение) являются абсолютными величинами, судить по ним о степени колеблимости признака не всегда можно, в некоторых задачах необходимо использовать относительные показатели рассеяния. Таким показателем является коэффициент вариации.

Коэффициент вариации (обозначим V) представляет собой отношение среднего квадратичного отклонения к средней арифметической, выраженное в процентах, т. е.

Коэффициент вариации позволяет: 1) сравнивать вариацию одного и того же признака у разных групп объектов, 2) выявить степень различия одного и того же признака у одной и той же группы объектов в разное время, 3) сопоставить вариацию разных признаков у одних и тех же групп объектов.

Пример 12. Проведем сравнительный анализ затрат труда и различия в затратах труда в совхозах и колхозах по данным табл. 9 Она содержит исходные данные и промежуточные вычисления

Написать табл. Стр. 96

Используя формулы средней арифметической, среднего квадратичного отклонения и коэффициента вариации, получим: для совхозов-х = 0,6; σ=0,4786; V=79,8%; для колхозов- =1,6; σ=1,489; V =79,8%.

Следовательно, в среднем по РСФСР затраты труда в совхозах примерно в 2,7 раза ниже, чем в колхозах (0,6/1,6), а различия между районами РСФСР в затратах труда в зерновом производстве в колхозах выше, чем в совхозах, т. е. совхозы составляют более однородную совокупность по затратам труда, чем колхозы.

Графическое представление вариационных рядов.

Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.

Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и отвида вариационного ряда.

Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (xi, qi), где xi - значение i-го признака, qi - частота или частость i-ro признака.

Пример 13. Построим полигон распределения по данным табл. 1. В прямоугольной системе координат на горизонтальной оси откладываем значения признака (возраст студентов), а на вертикальной оси - частоты (число студентов с данным возрастом). Полученные точки соединим отрезками прямой. Для того чтобы фигура была замкнутой, введем дополнительно новые значения признака (16 лет, 24 года); соответствующие им частоты, естественно, равны нулю. В результате получим полигон распределения студентов по возрасту (рис. 1).

Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.

Пример 14. Построим гистограмму распределения душ по размеру прирезки в Бельском уезде Смоленской губернии по данным табл. 2 (рис 2) (За неимением дополнительных данных при построении графика воспользуемся предположением, что величина последнего открытого интервала равна величине предыдущего).

Как уже отмечалось, для интервального ряда также можно построить полигон распределения Для этого за значения признака принимают середины интервалов и для полученного дискретного ряда обычным способом строят полигон. Полигон распределения можно получить и по готовой гистограмме. Достаточно соединить отрезками прямых середины верхних оснований прямоугольников и замкнуть, фигуру описанным способом. Результаты такого построения изображены на рис 2 пунктирной линией.

Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной - значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.

Пример 15. Построим кумуляту по данным интервального ряда табл. 2. Предварительно рассчитаем накопленные частности.

Обозначим на горизонтальной оси интервалы (рис. 3). Нижней границе первого интервала соответствует частность, равная нулю, а верхней границе - вся частность этого интервала (24,5). Верхней границе второго интервала соответствует накопленная частность первых двух интервалов (51,2) и т. д.

Возможности графического изображения статистических данных не ограничиваются воспроизведением материала в наглядном, легко воспринимаемом виде. Представление данных в виде графика позволяет просто и быстро получить приблизительные значения таких средних характеристик ряда, как мода и медиана.

Используя определенные виды графического изображения вариационного ряда, можно приближенно оценить моду и медиану. Покажем способы отыскания этих характеристик на конкретных примерах.

Пример 16. Определим приближенно медиану по данным табл. 6. Для этого построим кумуляту и на уровне 50% (середина ряда) проведем прямую линию, параллельную горизонтальной оси. Далее, из точки пересечения этой линии с кумулятой опустим перпендикуляр но, горизонтальную ось Точка пересечения перпендикуляра с осью и показывает приближенное значение медианы (рис. 4). Искомая медиана в нашем примере равна 10 дес. а вычисленная в примере 8-9,9 дес.

Пример 17. Определим моду по тем же данным, что и в предыдущем примере. Напомним, что интервал, которому соответствует наибольшая частота или частность для ряда с равными интервалами, наибольшая плотность - для ряда с неравными интервалами, является модальным. Выпишем из табл. 6 предмодальный, модальный и послемодальный интервалы с соответствующими плотностями.

Построим для этих интервалов столбики гистограммы и соединим отрезками вершины прямоугольников (рис. 5). Опустив перпендикуляр из пересечения отрезков на горизонтальную ось, получим приблизительное значение моды. Оно находится на пересечении перпендикуляра с горизонтальной осью и равно 6,3 дес., а расчетное значение равно 6,1 (пример 9).

Нормальное распределение. Если уменьшать интервалы и одновременно увеличивать число наблюдений в них, то гистограмма распределения будет все более приближаться к плавной линии. Кривая, к которой стремится график при указанном пробразовании, называется кривой распределения.

Формы кривых распределения разнообразны. Мы ограничимся рассмотрением одного важного в теоретико-прикладном плане распределения, так называемого нормального распределения.

График нормального распределения (рис. 6) представляет собой симметричную одновершинную кривую, напоминающею по форме колокол. Форма нормальной кривой и положение ее на оси абсцисс полностью определяются двумя параметрами - средним арифметическим значением и средним квадратическим отклонением σ. На рисунке видно, что наиболее часто встречаются варианты, близкие к , а по мере удаления от варианты встречаются все реже. (Ординаты точек графика на рис. 6 обобщают введенное ранее понятие плотности распределения.)

Каждому значению признака х соответствует при этом определенное значение так называемой функции распределения F(x), показывающее, какова вероятность существования вариант, меньших данного значения х. Геометрически вероятность вариант, меньших х, изображается площадью под кривой слева от точки х. Площадь под всей кривой равна 1, что соответствует полной достоверности (т. е. вероятности того, что признак примет вообще какое-то значение). Таким образом, видно, что функция распределения F(x) обобщает понятие накопленной частоты вариационного ряда.

Ввиду своей важности для практических приложений функция нормального распределения табулирована, т. е. имеются таблицы, где каждому значению х ставится в соответствие вероятность F(x) существования значений, меньших х. Для удобства табулирования в качестве значений признака берутся не сами величины х, а так называемые нормированные отклонения их от среднего значения, где .

При замене х на t центр распределения смещается в точку 0, а единицей измерения становится величина среднего квадратического отклонения σ, но вид кривой распределения неизменяется). Среднее значениенормированного отклонения t равно нулю, аего среднее квадратическое отклонениеравно единице (рис. 7). Нормированная функциянормального распределения обладаетследующими свойствами: . В табл. 7 приложения приведены значения F(t) дляположительных значений t. Так, для t=2F(t)=0,97725. На рис. 7 площадь, соответствующая этойвероятности,заштрихована.

Вомногих задачах приходится определятьвероятность того, что нормированноеотклонение не превысит по модулю некоторойвеличины t, т. е. значения признака хотклоняются от своего среднего не более чемна tσ.Это вероятность обозначается Ф(t) и равна F(t)-F(-t)=2F(t)-1.Чаще всего на практике используется именновероятность Ф(t),поэтому в табл. 1 приложения табулированызначения Ф(t).Найдем, например, вероятность того, чтонормированное отклонение по модулю непревышает 2, другими словами, значенияпризнака х отличаются от своего среднего помодулю не более чем на . По табл. 1 приложения величине t=2соответствует Ф(t) =0,9545, т. е. примерно в 95случаях из 100 значения признака отклоняютсяот своего среднего не более чем на 2σ.

Прииспользовании статистических методовчасто возникает задача проверкинормальности распределения (см, гл. 9),поскольку нормальность являетсясущественным условием их корректногоприменения.