Анализ содержания исторических источников нередко приводит к необходимости обработки качественной информации. Такая ситуация является типичной при изучении различных анкет, материалов переписей, личных карточек рабочих и т. д., а также при анализе нарративных источников. Формализация данных, содержащихся в источниках такого типа, характеризуется тем, что свойства (признаки) изучаемых объектов или явлений могут быть описаны лишь на качественном уровне, т. е. измерение этих признаков с помощью количественных шкал не представляется возможным.
Общая классификация типов признаков вводилась в гл. 2. Рассмотрим подробнее типы качественных признаков, которые разделяются на качественные признаки рангового (порядкового) и номинального (классификационного) типа (см. рис. 18).
Измерение по номинальной (простейшей из шкал) эквивалентно отнесению объекта к одному из классов по данному признаку. Частным случаем номинальной является шкала измерения альтернативных (дихотомических) признаков, т. е. шкала, включающая два класса (градации), соответствующих, например, наличию и отсутствию у объекта того или иного качества.
Порядковые шкалы-это более высокий уровень измерения качественных признаков. Градации рангового признака, измеренного в такой шкале, упорядочены по степени проявления соответствующего свойства. Ранговый признак задает не простую группировку объектов, как номинальный, а такую, при которой группы являются упорядоченными.
Рассмотрим несколько примеров качественных признаков различных типов. Номинальные признаки: наименование продукции, тип хозяйства, профессия, национальность, пол (последний признак является альтернативным). Ранговые признаки: сословие, образование, квалификация.
Основное внимание в данной главе уделяется важной проблеме измерения связи качественных признаков. Наиболее разработанными являются методы images/kachestv/лиза взаимосвязи качественных признаков с одинаковыми уровнями измерения.
§ 1. Анализ связи номинальных признаков
Традиционные меры связи. Традиционный подход к построению мер связи нормальных признаков основан на проверке предположения о статистической независимости рассматриваемых признаков.
Рассмотрим вначале вопрос о взаимосвязи двух альтернативных признаков, таблица сопряженности которых имеет следующий вид .
Здесь буквами A и обозначены наименования двух классов по первому признаку, а В и
-по второму. Числа в клетках табл. 1 определяют численности объектов, обладающих сочетанием соответствующих свойств. Так, с равно числу объектов, обладающих свойством A и не обладающих свойством В.
Пример 1. По выборочным данным, относящимся к концу XIX в., изучим зависимость между размером имения и типом хозяйства.
Как следует из табл. 2, число, например, крупных хозяйств отработочного типа равно 40; общее число крупных хозяйств (a+b) равно 50, а общее число хозяйств отработочного типа (a+c)-65.
Условие статистической независимости признаков в данном случае эквивалентно требованию, чтобы, например, доля крупных хозяйств среди имений отработочного типа была равна доле крупных хозяйств во всей изучаемой совокупности, т. е. чтобы
то рассматриваемые признаки являются взаимосвязанными. Данные табл. 2 показывают, что ad=40*45, bc=10*25, т. е. ad-bc>0, что указывает на наличие связи типа хозяйства с размером имения.
Для оценки степени связи альтернативных признаков используют обычно следующие два коэффициента:
Оба коэффициента Q и Ф принимают значения от -1 до +1 и равны 0, если признаки статистически независимы.
Коэффициент Q равен +1 в случае полной связанности, т. е. либо все объекты со свойством A обладают одновременно и свойством B (с=0), либо все объекты со свойством B обладают одновременно и свойством B (c=0). Значение -1 коэффициент Q принимает в случае полной отрицательной связанности (а=0 или d=0).
Коэффициент Ф равен + 1, если все объекты со свойством A обладают и свойством B, а все объекты со свойством B обладают и свойством A (b=0, с=0). Значение -1 коэффициент Ф принимает в случае, когда все объекты со свойством A не обладают свойством B, а все объекты со свойством B не обладают свойствам A (а=0 и d=0).
Таким образом, числовые значения коэффициентов Q и Ф для одних и тех же данных могут существенно отличаться друг от друга, поскольку эти коэффициенты измеряют различные аспекты взаимосвязи в 4-клеточной таблице. Ф предназначен для измерения степени двусторонней взаимосвязи между рассматриваемыми альтернативными признаками, в то время как Q отражает лишь односторонненаправленную связь. Значения этих коэффициентов совпадают лишь при наличии полной двусторонней взаимосвязи: . Так, определение величины коэффициентов Q и Ф для данных табл. 2 приводит к следующим результатам:
Оба коэффициента Q и Ф в данном примере принимают положительные значения, т. е. связь между рассматриваемыми признаками прямая (наличие свойства A связано, как правило, с наличием свойства B).
Довольно высокое значение коэффициента связи Q (0,76) определяется тем, что абсолютное большинство крупных хозяйств (40 из 50, т. е. 80%) относится к отработочному типу. Величина коэффициента сопряженности Ф (0,44) значительно уступает величине Q. Это связано с тем, что связь данных признаков носит преимущественно односторонний характер (среди крупных хозяйств отработочные составляют 80%, в то время как среди хозяйств отработочного типа около 40% (25 из 65) составляют мелкие хозяйства).
Перейдем теперь к вопросу о построении стандартных мер связи номинальных признаков общего вида.
Пусть имеются два номинальных признака, число градаций (классов) которых равно l и m. Данные об их взаимосвязи могут быть представлены в виде следующей таблицы сопряженности (табл. 3).
Здесь ni обозначает число объектов, относящихся к i-му классу по первому признаку и к j-му-по второму признаку. Так, например, если n3.5=7, то число объектов, относящихся к 3-му классу по первому признаку и к 5-му классу по второму, равно 7.
Через ni. в табл. 3 обозначено общее число объектов f-го класса по первому признаку (т. е. сумма чисел в i-й строке), а через n.j-число объектов j-го класса по второму признаку (сумма чисел в /-м столбце). N-общее число объектов в изучаемой совокупности;

Для оценки существенности связи двух номинальных признаков на основе принципа статистической независимости вначале ответим на вопрос-какими были бы частоты в клетках табл. 3, если бы рассматриваемые признаки были независимыми?
Обозначим -число в клетке (i, j) табл. 3, которое получилось бы в соответствии с гипотезой о статистической независимости при заданных численностях классов n.1, n.2, …, n.e и n1, ..., nm. Соответствующая частость была бы равна
. Исходя из принципа статистической независимости, ожидаемая теоретическая частость (доля)
рассчитывается по формуле
отсюда
Для оценки существенности различий между реальными данными в табл. 3 и "сконструированными" в соответствии с гипотезой о независимости признаков применяется коэффициент квадратичной сопряженности X2, основанный на так называемом критерии согласия X2 (хи-квадрат). Вычисление этого коэффициента производится путем суммирования относительных различий между числами nij и по всем клеткам таблицы сопряженности:
Как следует из формулы (8.4), значение коэффициента X2 тем меньше, чем меньше различия между числами nij и ; X2=0, когда nij=
для всех клеток табл. 3.
Формула (8.4) легко преобразуется к следующему виду:
в котором она обычно и используется на практике.
Исходя из этой формулы признаки должны быть признаны зависимыми, если X2=0. Однако это утверждение будет верным лишь в том случае, когда данные, содержащиеся в таблице сопряженности, относятся к генеральной сово купности. Если же эти данные получены в результате случайной выборки, то это утверждение может оказаться ошибочным (вследствие возможных ошибок репрезентативности). Поэтому основной целью применения критерия X2 в выборочных исследованиях является установление критического значения X2кр такого, что вероятность получения значений X2, больших критического, за счет случайностей выборки весьма мала. Таким образом, если X2 окажется больше Хр, гипотеза об отсутствии взаимосвязи между признаками должна быть отклонена для выбранного уровня значимости.
Уровень значимости (α) означает вероятность риска ошибиться, отвергая гипотезу о статистической независимости (см.гл.9,§ 4).
Удобство использования критерия X2 на практике определяется наличием таблиц, содержащих критические значения этого критерия для различных уровней значимости и размерностей задачи (такая таблица содержится и в данном учебном пособии-табл. 3 приложения). В этой таблице слева указано число степеней свободы k (размерность задачи), а сверху-уровень значимости а. В нашей задаче images/kachestv/лиза таблицы сопряженности номинальных признаков число степеней свободы определяется по формуле
где l и m, как и ранее, обозначают число градаций рассматриваемых признаков. Уровень значимости а обычно выбирают равным 0,01; 0,05 или 0,10.
Критическое значение Х2кр определяется по табл. 3 приложения на пересечении строки, соответствующей данной величине k, и столбца, соответствующего выбранному уровню значимости а.
Пример 2. Поясним методику применения критерия X2 на следующем иллюстративном примере.
Определим значение коэффициента X2 для данных табл. 4 по формуле (8.5):
Число степеней свободы в данном случае равно k=(3-1)(2-1)=2. Выберем величину уровня значимости равной α=0,01. Как следует из табл. 3 приложения, критическое значение X2 в этом случае равно 9,21. Это означает, что значение, равное или большее этой величины, может встретиться только один раз из ста (так как a=1/100) при условии, что гипотеза о статистической независимости верна. Поскольку в нашем примере значение X2=57.56>9.21, то связь между типом хозяйства и сословием владельца следует считать существенной. Нет и одного шанса из ста, что этот вывод получен вследствие случайных факторов.
Если бы значение X2 в данном примере получилось меньшим чем 9,21, то это означало бы, что images/kachestv/лизируемые данные (табл. 4) согласуются с гипотезой о статистической независимости признаков и не дают оснований отвергнуть эту гипотезу (при данном уровне значимости α).
Итак, с помощью критерия X2 можно оценить величину риска в принятии предположения о существовании связи. Однако установив факт наличия связи между признаками, исследователь должен измерить ее силу, чтобы иметь возможность сравнивать степень взаимосвязи между различными признаками, сопоставлять результаты, полученные в различных исследованиях.
Существует целый ряд стандартных коэффициентов связи номинальных признаков, основанных на использовании коэффициента X2. Наиболее распространенными из них являются коэффициенты связи, предложенные в начале XX в. Чупровым и Крамером:
где через min(l-1, m-1) обозначено минимальное из чисел (l-1, m-1).
Коэффициенты Т2 и К,2 принимают значение в интервале [0, 1]. Минимальное-нулевое-значение они имеют тогда и только тогда, когда признаки статистически независимы. Значение 1 коэффициент T2 принимает при полной связи между признаками только в том случае, если число градаций обоих признаков одинаково (l=m); во всех других случаях даже при полной связи коэффициент Чупрова меньше единицы. Наибольшее значение, равное единице, коэффициент Крамера принимает при полной связи признаков независимо от того, равны ли между собой число строк (l) и число столбцов (m) таблицы сопряженности.
Заметим, что коэффициенты Т и К эквивалентны, когда l=m; в остальных случаях T
Числовое значение рассмотренных коэффициентов связи номинальных признаков остается неизменным при перестановке местами строк или столбцов таблицы сопряженности. Эти коэффициенты всегда выражаются неотрицательными числами (заключение о знаке связи здесь лишено смысла); поэтому выяснение характера зависимости, ее специфических черт должно определяться по таблице сопряженности.
Действительно, при измерении связи количественных признаков (см. гл. 6, § 2) знак коэффициента корреляции характеризует направление связи: если с увеличением значений признака X в среднем увеличиваются и значения признака Y, то знак rxy положителен; если же тенденции к изменению значений этих признаков противоположны, то rxy
Для корректного использования мер связи, основанных на X2, необходимо обеспечить выполнение следующей практической рекомендации: ни одна из ожидаемых теоретических частостей не должна быть слишком мала (
).
При нарушений этого условия следует либо уменьшить степень дробности группировки признаков (число градаций), либо обратиться к другому критерию.
Теоретико-информационные меры связи. Развитие математико-статистических методов в последние десятилетия привело к появлению нового подхода к проблеме оценки связи качественных признаков. В основе этого подхода лежит представление о том, что мера связи признаков должна не столько оценивать степень их статистической независимости, сколько характеризовать возможность прогноза значений одного из признаков по значениям другого.
Самый точный прогноз достигается в ситуации, когда для каждого из значений одного признака можно однозначно указать соответствующее значение второго. Мера связи в этой ситуации, соответствующей "полной связи" между признаками, должна принимать максимальное значение, равное 1. Критерием отсутствия связи в рамках данного подхода обычно также считается статистическая независимость признаков; в этом случае мера связи должна принимать минимальное, нулевое, значение.
Таким образом, современная трактовка понятия "полная связь" между признаками Х и Y означает, что знание значения признака Х устраняет всякую неопределенность в знании значения признака Y. Для уменьшения неопределенности необходимо получить некоторое количество информации. Измерение статистической связи признаков сводится здесь к оценке относительно уменьшения неопределенности Y при получении знания об X.
Пример 3. Поясним сказанное на примере данных табл. 4, содержащей иллюстративные сведения о сопряженности признаков "сословие" (X) и "тип хозяйства" (Y). Знание значения признака Х в данном примере существенно снижает неопределенность в знании значений признака Y. Так, если Х принимает значение x3 ("дворяне"), то Y почти наверняка (с вероятностью 0,93=50/60) принимает значение y1 ("отработочный тип"). Если Х=x2 ("крестьяне"), то неопределенность в знании Y также существенно снижается: с вероятностью 0,80=40/50 Y=y2 ("капиталистический тип") и т. д. Отметим, что неопределенность в знании значений признака Y, взятого отдельно, высока-вероятности значений y1 и y2 равны 0,46=65/140 и 0,54=75/140 соответственно.
Количественный images/kachestv/лиз неопределенности и информации осуществляется на основе результатов теории информации, начало которой было положено в конце 1940-х годов. Основным, фундаментальным понятием теории информации является энтропия-мера неопределенности. Применительно к нашей задаче images/kachestv/лиза качественных признаков энтропия может быть определена следующим образом.
Пусть изучаемое явление (признак х) характеризуется т состояниями (классами) x1, x2, … , xm и имеет статистическую природу. Обозначим через pi вероятность того, что признак X принимает i-e значение xi (при этом p1+p2+…+pm=l). Тогда энтропия, т. е. мера неопределенности признака х, вычисляется по формуле
где logpi,-логарифм при основании 2 от величины pi.
При images/kachestv/лизе эмпирических данных роль вероятностей p1 играют их выборочные оценки (частости, доли) ni/N, где N-общее число объектов в выборке; ni-число объектов i-го класса xi.
Нетрудно показать, что энтропия Н действительно соответствует интуитивным представлениям о степени неопределенности. Минимальное значение энтропии равно нулю, и достигается оно при условии, что все вероятности равны нулю, кроме одной (например, p1), которая равна 1. Содержательно это означает, что все объекты принадлежат одному классу (x1), т. е. какая-либо неопределенность в знании значений признака Х отсутствует. Максимальное значение энтропии равно logm, и достигается оно при таком распределении вероятностей, когда все они одинаковы и равны . Это свойство энтропии как меры неопределенности также согласуется с представлением о том, что максимальная неопределенность, разнообразие изучаемой системы соответствуют равновероятному распределению объектов по классам x1, ,xm
Поскольку максимальное значение энтропии (log m) зависит от числа классов т, то на практике часто используют нормированную энтропию H*=H/logm, которая принимает значения в интервале [0,1]. Зависимость величины Н* от распределения вероятностей иллюстрируется графически на рис. 19 (m=4; число над каждым столбиком обозначает величину соответствующей вероятности рi,).
Вычисление энтропии Н* для признаков Х и Y из табл.4 приводит к следующим результатам. Для признака Х ("сословие") частоты трех классов равны соответственно 30/140, 50/140 и 60/140, а для признака Y ("тип хозяйства") - 65/140, 75/140. Отсюда получаем:
Н*(Х)=-[(30/140)*log(30/140)+(50/140)*log(50/140)+(60/140)*log(60/140)]/log 3 = 0,89;
H*(Y)=-[(65/140)*log(65/140)+(75/140)*log(75/140)]/log2=0,99.
Таким образом, мера неопределенности обоих признаков оказывается (по данным табл. 4) весьма высокой.
Отметим, что чувствительность величины энтропии к отклонениям от равномерного распределения частот послужила причиной активного использования энтропийного images/kachestv/лиза в исторических исследованиях для оценки степени социально-экономического неравенства, имущественной дифференциации.
Перейдем теперь к определению понятия "количество информации", особенно важного для построения мер связи качественных признаков. Пусть знание значений признака Х уменьшает неопределенность в знании значений признака У. Оставшуюся меру неопределенности обозначают Hx(Y) и называют условной энтропией. Количество информации I(XY) определяется как уменьшение неопределенности признака Х за счет информации, полученной о связи Х и У:
В теории информации показано, что количество информации I(XY) может быть вычислено по формуле
где pij, - вероятность того, что признак Х характеризуется i-м классом, а признак Y- j-м классом; pi..-вероятность i-ro значения признака X; р.j,-вероятность j-го значения признакаY.
При images/kachestv/лизе эмпирических таблиц сопряженности (вида табл. 3) роль вероятностей pi.., р.j и pij играют соответствующие доли ni./N, n.j/N и nij/N.
Формула (8.11) для количества информации симметрична относительно Х и Y, т. е. I(XY)=I(YX), поэтому I(XY) называют также взаимной информацией Х и У.
Взаимная информация обращается в нуль тогда и только тогда, когда признаки Х и Y статистически независимы. Максимальное значение взаимной информации, равное H(X) или H(Y), соответствует функциональной зависимости (полной связи) признаков Х и У, когда каждому значению хi признака Х соответствует единственное значение yi признака Y.
При images/kachestv/лизе взаимосвязи признаков на основе взаимной информации I(XY), когда таблица сопряженности строится на основе выборочных данных, возникает задача о значимости статистической зависимости, если . Исходя из доказанных в теории информации свойств I(XY), в данном случае пользуются той же методикой, что и изложенная выше для определения уровня значимости коэффициента X2 с помощью критерия X2. По таблице X2 для заданных уровней значимости (например, а =0,01), числа степеней свободы k=(l-1)(т-1) и объема выборки (N) определяется критическое значение Iкр=X2/2N, которое далее сравнивается с фактическим Iф(XY). Если
, то с заданной степенью уверенности принимается гипотеза о независимости Х и Y, если же Iф(XY)>Iкр, то утверждается, что на данном уровне значимости гипотеза о независимости Х и Y неверна.
Пример 4. Обратимся вновь к данным табл. 4. Как уже было определено выше, при уровне значимости a=0,01 и числе степеней свободы k=2 критическое значение X2кр=9,21. Следовательно, в данном случае Iкр=X2/2N=9,21/(2*140)=0,033. Вычисление по формуле (8.11) взаимной информации для признаков Х и Y по данным табл. 4 приводит к величине Iф(ХY)=0,321. Имеем IФ(XY)>Iкр, следовательно, гипотеза о независимости Х и Y на данном уровне значимости α=0,01 неверна (нет и одного шанса из ста, что признаки Х и Y независимы).
Установив факт существенности связи признаков, далее следует измерить ее силу. Наибольшее распространение получила мера связи, для построения которой необходимо пронормировать взаимную информацию I(XY) на H(XY):
где H(XY)-энтропия совместного распределения признаков X и Y, вычисляемая по формуле
Мера зависимости R(XY) (называемая также симметричным информационным коэффициентом связи) обладает следующими свойствами:
1) ; 2) R(XY)=0 тогда и только тогда, когда X и Y независимы; 3) R(XY)=1 тогда и только тогда, когда Х и Y функционально зависимы.
Пример 5. Вычисление коэффициента R(XY) по данным табл. 4 приводит к значению R(XY)=0,321/1,977=0,16, что значительно ниже значений коэффициентов T и K, подсчитанных выше для тех же данных. R(XY) дает "осторожную" оценку силы связи.
Отметим, что наряду с симметричной мерой зависимости R(XY) получили распространение и асимметричные (направленные) меры зависимости, например:
Однако использование этих коэффициентов для разделения признаков на "зависимые" и "определяющие" не имеет достаточного обоснования.
Завершая рассмотрение теоретико-информационных мер связи, укажем, что их построение может осуществляться не только на основе энтропии. Важным примером такой меры служит коэффициент Валлиса, реализующий принцип "пропорциональной предикции", согласно которому мерой связи должно служить относительное уменьшение вероятности ошибки предсказания признака Y при знании признака Х в сравнений с вероятностью ошибки прогноза Y без знания X. Коэффициент Валлиса вычисляется по формуле
Свойства коэффициента Валлиса аналогичны свойствам коэффициента R(XY), за тем лишь исключением, что Wy/x=1, когда возможен однозначный прогноз Y по Х (но не наоборот). Интерпретация коэффициента Валлиса весьма проста: если, например, Wy/x=0,50, то знание Х уменьшает число ошибок прогноза вдвое.
Для данных табл. 4 этот коэффициент равен Wy/x=0,41. Отметим, что в выборочных исследованиях предпочтительнее пользоваться не коэффициентом Валлиса, а информационными мерами связи, значимость которых может быть установлена в соответствии с изложенной выше методикой. Информационные меры связи получили применение в исторических исследованиях, в частности при обработке массовых источников по социально-экономической истории советского общества.
§ 2. Анализ связи ранговых признаков
Ряд объектов, упорядоченных в соответствии со степенью проявления некоторого свойства, называют ранжированным; каждому числу такого ряда присваивается ранг. Будем обозначать ранги порядковыми числительными 1, 2, ..., n, где n-количество объектов. Таким образом, если какой-либо объект после ранжирования занимает третье место в ряду, ему присваивается ранг 3.
Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции. Эти коэффициенты строятся на основе следующих трех свойств:
а) если ранжированные ряды по обоим признакам полностью совпадают (т. е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен +1, что означает полную положительную корреляцию;
б) если объекты в одном ряду расположены в обратном порядке по сравнению со вторым, коэффициент равен -1, что означает полную отрицательную корреляцию;
в) в остальных ситуациях значения коэффициента заключены в интервале [-1, 1]; возрастание модуля коэффициента от 0 до +1 характеризует увеличение соответствия между двумя ранжированными рядами.
Указанными свойствами обладают коэффициенты ранговой корреляции Спирмена
и Кендалла .
Коэффициент ранговой корреляции Спирмена вычисляется по формуле
где di-разность между парами рангов для i-ro объекта; n-число сопоставляемых пар рангов (объектов).
Пример 6. Поясним технику вычисления коэффициента р на следующем иллюстративном примере.
В 3-м столбце табл. 5 приводятся значения рангов по признаку "сословие владельца", а в четвертом - значения рангов, полученных при ранжировке средних размеров имений. Подставляя промежуточные величины, вычисленные в табл. 5, в формулу (8.16), получим
т. е. связь между данными признаками прямая и довольно высокая.
Коэффициент ранговой корреляции Кендалла вычисляется по формуле
где S определяется таким образом, как показано в примере 7.
Пример 7. Обратимся вновь к данным табл. 5. Таблица упорядочена так, что в столбце "Ранг I" ранги расположились в порядке возрастания их значений (это существенно для вычисления S). Первые четыре столбца табл. 5 при вычислении τ такие же, как и при вычислении ρ, а последние два столбца здесь заменяются следующими:
Эти
два столбца заполняются на основе расположения рангов в столбце "Ранг II". Берем значение ранга, стоящего в столбце "Ранг II" на первом месте, 1; все три расположенных ниже данного ранга значения его превышают, поэтому в первую строку столбца S,+ заносим число 3. Для второго ранга (со значением 3) images/kachestv/логичный подсчет дает число 1, и т. д. Для заполнения столбца 5 определяем для каждого ранга, сколько из расположенных ниже его рангов имеют значение меньше данного. Так, для первого ранга (1) ни один из нижерасположенных рангов не имеет значения меньше 1, поэтому в первую строку столбца S,- заносится 0. Аналогичный подсчет для второго ранга со значением 3 дает число 1 и т. д. Таким образом, суммы по этим столбцам равны S+=5 и S-=1, а число S=S+-S-=5-1=4. Подставив это значение в формулу (8.17) для коэффициента Кендалла, получим
Коэффициент Кендалла τ дает более осторожную оценку корреляции, чем коэффициент Спирмена ρ (числовое значение τ всегда меньше, чем ρ). Хотя вычисление коэффициента ρ менее трудоемко, чем вычисление коэффициента τ, последний легче пересчитать, если к ряду добавляется новый член.
Важное достоинство коэффициента τ состоит в том, что с его помощью можно определить коэффициент частной ранговой корреляции, позволяющий оценить степень "чистой" взаимосвязи двух ранговых признаков, устранив влияние третьего:
При ранжировании объектов нередко возникает ситуация, когда два (или большее число) объектов получают одинаковые ранги (такие объекты называют связанными). Расположение студентов в соответствии с их экзаменационными оценками является известным примером такого рода связей. В этом случае значение ранга связанных объектов берется равным среднему значению тех рангов, которые имели бы эти объекты, если они были бы различны.
Например,
если связанными оказались 3-й и 4-й объекты в ранжированном ряду, то каждому
из них приписывается ранг 31/2 , а если связываются все объекты от 2-го до 6-го, то каждый получает ранг (2+3+4+5-г-6)/5=4. Если число связанных рангов невелико, то при вычислении ранговой корреляции можно пользоваться введенными здесь формулами для коэффициентов ρ и τ; в противном случае эти формулы несколько усложняются.
Пример 8. Пусть по небольшой выборке, включающей 7 хозяйств, изучается взаимосвязь между размером имения и сословием владельца, приведенными в табл. 6.
В этой таблице имения упорядочены по размеру, а среди рангов сословия владельцев имеются связанные ранги. Вычислив значения Si+ и Si-, определим коэффициент ранговой корреляции:
Значимость коэффициентов ранговой корреляции. При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочный коэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.
При сравнительно большом объеме п выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения (табл. 1 приложения). Для проверки значимости коэффициента Спирмена ρ (при n>20) вычисляют значение
а для проверки значимости коэффициента Кендалла τ (при n>10) вычисляют значение
где S=S+-S-; п.- объем выборки,
Далее задаются уровнем значимости α, определяют по табл. 1 приложения критическое значение tкр и сравнивают с ним вычисленное значение (ts) или (tk).
Пример 9. Проверим значимость коэффициента т для данных табл 6 (вычисления проделаем лишь для иллюстрации, так как объем выборки здесь меньше 10, n=7). По формуле (8.20):
По табл. 1 приложения находим, что tкр=1,96, если α=005 Поскольку tk>tкр, то τ-значим.
При малых выборках проверка значимости коэффициентов ранговой корреляции проводится с помощью специальных таблиц, построенных на основе более сложных критериев.
Множественный коэффициент ранговой корреляции W. Этот коэффициент (называемый также коэффициентом конкордации) предназначен для измерения связи произвольного числа ранговых признаков. Поясним способ вычисления W на следующем примере.
Пример 10. Пусть имеются n=7 хозяйств, характеризующихся набором из m=3 ранговых признаков (табл. 7). В пятом столбце табл. 7 приводятся суммы рангов, полученных каждым объектом.
Если ранжировки объектов по разным признакам совпадают (или близки),
то суммарные ранги объектов будут сильно различаться. Если же все m ранжировок
слабо согласованы, то суммарные ранги объектов будут почти одинаковыми и близкими
к их средней сумме, равной
Для построения коэффициента конкордации W вычисляют сумму S' квадратов разностей Δi между фактическими суммарными рангами объектов и их средним значением
. Полученную сумму S' нормируют на максимально возможное ее значение, равное m2(n3-n)/12 Таким образом, формула для коэффициента конкордации имеет следующий вид:
Значения W заключены в интервале [0, 1]. Равенство W нулю означает полную несогласованность m ранжировок; если же W=1, то все m ранжировок совпадают.
Определим значение W по данным табл. 7. Здесь S'=28,
т. е. данные три ранжировки согласованы весьма слабо.
Значимость полученной величины W может быть проверена по критерию X2:
с числом степеней свободы k=n-1. В данном примере X2ф=2,00; k=6. Для уровня значимости a=0,01 из табл. 3 приложения находим критическое значение X2кр=16,81. Поскольку фактическое значение Х2ф меньше критического, гипотеза об отсутствии связи между рассматриваемыми ранговыми признаками не отклоняется, т. е. коэффициент W в данном случае не является значимым.
Прикладные аспекты ранговой корреляции. Как уже отмечалось, коэффициенты ранговой корреляции могут использоваться не только для images/kachestv/лиза взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками. В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.
Существует ряд ситуации, когда вычисление коэффициентов ранговой корреляции целесообразно и при определении силы связи двух количественных признаков. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты ρ и τ не сопряжены с такими ограничениями при определении уровня значимости.
Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер. Если количество объектов в выборке невелико или если для исследователя существен знак связи, то использование корреляционного отношения η может оказаться здесь неадекватным. Вычисление же коэффициента ранговой корреляции позволяет обойти указанные трудности.
Завершая рассмотрение проблем images/kachestv/лиза взаимосвязи, отметим следующие существенные положения.
1) Величины мер связи признаков различной природы не сравнимы между собой. Например, если величина коэффициента ранговой корреляции τxy оказалась выше величины коэффициента ассоциации Qzv, то это не означает, что связь ранговых признаков Х и Y "сильнее", чем связь альтернативных признаков Z и V.
2) Если рассматриваемый набор признаков содержит показатели различной природы (номинальные, ранговые, количественные) , то для сопоставления силы связи между любой парой признаков обычно используют меры зависимости, пригодные для номинального уровня измерения (информационные коэффициенты, Т, К и др.). Такой подход позволяет images/kachestv/лизировать в комплексе все связи. При этом, однако, следует учитывать, что возникают определенные потери исходной информации, ее "огрубление". Так, для ранговых признаков теряется информация о соответствующем упорядочении объектов, а значения количественных признаков группируются в интервалы, которые при переводе на номинальный уровень измерения также оказываются неупорядоченными. Иногда такое огрубление полезно, поскольку позволяет количественные данные с грубыми ошибками трактовать как ранговые или даже номинальные. При этом уменьшение точности компенсируется повышением надежности данных.
С этими проблемами исследователь не сталкивается в том случае, когда все анализируемые признаки характеризуются одинаковым уровнем измерения.