Основы статистики

К оглавлению книги «Методы археологического исследования» / К следующей главе

ЗАДАЧИ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ФАКТОВ И НАБЛЮДЕНИЙ В АРХЕОЛОГИИ

Как уже отмечалось выше, границы между типами древних вещей, объектов или памятников почти всегда бывают размытыми. Поэтому нередко случается так, что исследователи, изучая одни и те же материалы, видят в них разные типы как по объему, так и по составу. В принципе это возможно, поскольку подобные разногласия, как правило, обусловлены неодинаковыми подходами, учетом разнообразных признаков и другими индивидуальными особенностями научного творчества. Однако необходимо не только уметь самому различать типы, но и демонстрировать эти различия, находить доказательства их реальности. Иными словами, если подходы к анализу материала могут быть разными, то критерии достоверности результатов анализа должны быть достаточно универсальными.

В древнем производстве не было автоматов, штампующих одинаковые вещи. Поэтому в пределах вполне очевидных типов каждая вещь чем-то отличается от другой (разумеется, исключая те случаи, когда, например, два наконечника стрел или другие предметы отлиты в одной литейной форме). Эти различия могут быть незначительными, но, как правило, их всегда несколько. Два однотипных сосуда могут немного отличаться по диаметру венчика, по одному-двум элементам орнамента, по характеру обжига, лощения и т. д. Когда нужно рассмотреть — десятки или сотни таких вещей, учет всех различий становится труднообозримым и возникает необходимость «уплотнения информации» так, чтобы, не теряя всех особенностей, представить их в удобной для анализа форме. В этом состоит первая группа задач статистической обработки.

Вторая группа задач связана с тем, что мы никогда не располагаем исчерпывающей полнотой исходных данных. В то же время нам необходимы достоверные суждения о характере историко-культурных закономерностей, отразившихся в изучаемых древностях. Зная, что до нас дошла лишь незначительная часть данных — выборка, мы хотели бы быть уверенными в том, что выводы, сделанные по этой незначительной части, можно распространять на всю остальную, не дошедшую до нас совокупность материалов, которые существовали в древности, т. е. на генеральную совокупность. Статистические методы позволяют проверить, насколько наблюдаемые нами свойства выборки отражают свойства генеральной совокупности.

В работе археолога большое место занимают аналогии. При рассмотрении аналогий устанавливается сходство или различие между вещами, типами и т. д. Поскольку закономерности развития общественного производства очень сложны, сходство или различия между видами порождаются многими и различными причинами, которые можно подразделить на две группы: закономерные и случайные. Археолога больше всего интересуют, конечно, закономерные причины. Следовательно, мало найти аналогии изучаемым вещам, нужно еще доказать, что наблюдаемое сходство не случайно.

Третья группа задач статистической обработки археологических данных связана с использованием специальных статистических критериев достоверности наблюдаемых различий. Эти критерии позволяют определить, являются ли наблюдаемые различия между комплексами (выборками) случайными или же они связаны с определенными закономерностями.

Четвертая группа задач статистической обработки археологических материалов представляет собой довольно большую область изучения связей между объектами разных уровней (признаками, вещами, памятниками). Например, в каждом отдельном случае состав вещей, положенных вместе с покойником в могилу, мог в чем-то отличаться от другого, подобного. Но если на некоторой серии могил проследить соотношение (корреляцию) между составом вещей и такими признаками, как пол погребенного, его возраст, иные особенности, то может выявиться какая-то закономерная связь, свидетельствующая о специфике погребального обряда. В данном случае выявится корреляция между качественными признаками.

Древние мастера не знали металлохимии, но опыт и интуиция подсказывали им, какие нужны добавки к сплавам, чтобы получить металл с определенными свойствами. По данным спектрального или другого анализа, изучение связей между теми или иными элементами сплава позволяет установить определенные «рецепты» древних металлургов. Поскольку процентное соотношение компонентов сплава выражено в числах, то в данном случае выявляется корреляция между количественными признаками.

Перечисленные группы задач, конечно, не исчерпывают всех областей реального и возможного применения в будущем статистических методов в археологическом исследовании. На последующих страницах будут показаны только некоторые элементарные приемы и методы, поскольку для более подробного изложения понадобилось бы значительно больше места, чем отведено на все пособие в целом. Для того чтобы научиться статистической обработке фактов и наблюдений, необходимо прежде всего иметь четкое представление об основных средствах и методах. Необходимо знать и те ограничения, за пределами которых самые совершенные математические методы и самые мощные ЭВМ могут оказаться бессильными. Одно из них главное — все выводы, сделанные на основе математической обработки данных, касаются только самих проанализированных данных, но не их исторической интерпретации. Например, несколько памятников андроновской культуры, расположенных в пределах одного микрорайона, считались компактной, неразличимой внутри группой. Затем, в результате статистического анализа керамических комплексов этих памятников, удалось установить, что между ними есть различия, и они не случайны, а порождены какими-то закономерностями. На этом «полномочия» математических методов заканчиваются. Объяснение причин наблюдаемых различий (а они могут быть и хронологическими, и локальными, и какими-либо еще) — это уже задача чисто археологическая или историческая.

ИСХОДНЫЕ ДАННЫЕ. СПОСОБЫ ПРЕДСТАВЛЕНИЯ И ПЕРВИЧНАЯ ГРУППИРОВКА

Когда физик, химик или биолог обрабатывает результаты эксперимента, ему не приходится задумываться над тем, в какой форме и в каких единицах записывать эти результаты. Единицы измерения в экспериментальных науках давно выработаны. Данные обычно снимаются с показаний приборов, они уже выражены в количественной форме и готовы к обработке.

Археолог, как правило, такими возможностями не располагает. Поэтому ему, прежде чем обращаться к методам статистики, необходимо представить свои наблюдения в такой форме, которая была бы пригодна для обработки. Удобной формой представления данных для статистической обработки является рассмотренный выше способ объектно-признакового описания.

Статистический ряд. При раскопках могильника Каменка I (Енисей, тагарская культура) в одной могиле был найден колчан со стрелами. В нем оказалось 90 бронзовых наконечников стрел. Внешне все они казались однотипными (плоские, втульчатые, двухлопастные). Древний мастер не знал наших мер длины и, вероятно, определял длину на глаз. Поэтому измерение каждого наконечника чуть точнее, чем на глазок, скажем, в миллиметрах, в данном случае будет вполне достаточным. Результаты измерений запишем в заранее заготовленную таблицу. Определим длину самого короткого и самого длинного наконечников (она соответ-

osnovyi-statistiki

ственно будет равна 27 и 47 мм). Теперь установим величину интервала между значениями признака. На этот вопрос тоже нет однозначного ответа, хотя в некоторых пособиях по статистике можно найти формулы, например:

osnovyi-statistiki-2

где хmax = 47; хmin = 27; n = 90. Следовательно, Дх=2,35 мм. Но сотые доли миллиметра измерять неудобно, а главное — не нужно, поэтому округлим это число до 2 мм. Тот же результат можно получить и не обращаясь к формуле. Помня, что древний мастер не пользовался измерительной линейкой, достаточно опытным путем установить, какая величина улавливается зрительно как разная. Примерно эта величина окажется равной 2 мм.

Составив таблицу, заполняем ее по мере перебора и измерения всех наконечников. Например, первым оказался наконечник длиной 34 мм. Такого значения нет в таблице. Там указан интервал 33—35 мм. Это значит, что в данной строчке должны быть отмечены наконечники, имеющие длину от 33 до 35 мм (включительно), т. е. в том числе и первый. Для упрощения последующего подсчета результаты удобно заполнять черточками, образующими «пятерки» (IIII), или «конвертиками» — десятки. Заполнять таблицу нужно очень внимательно, поскольку ошибки в первичном заполнении будут влиять на последующую обработку. Заполнив таблицу, желательно ее проверить в обратном порядке. Сумма чисел в третьей колонке должна совпасть с объемом всей совокупности.

Данная таблица представляет собой упорядоченный ряд значений признака «длина наконечника». Это и есть статистический ряд (синонимы: статистическая совокупность, вариационный ряд, распределение). Каждое отдельное значение признака называется вариантой (х). Общее число вариант в совокупности называется объемом совокупности (п). Число значений одного признака называется частотой или численностью (h).

Способы представления статистического ряда. Существует два наиболее распространенных способа представления статистических рядов: табличный и графический. Каждый из них имеет свои разновидности.

Если вместо черточек и «конвертиков» поставить соответствующие числа, получим таблицу распределения значений признака «длина наконечника» (табл. 2).

Эту таблицу легко преобразовать в график (рис. 30). Можно также построить кумулятивный график, в котором каждая последующая частота откладывается не от нуля, а от значения предыдущей частоты (рис. 31). Разновидностью графика является

osnovyi-statistiki-3

гистограмма (рис. 32). Выбор способа представления статистического ряда не имеет принципиального значения.
Основные показатели статистического ряда. Статистический ряд характеризуется двумя группами показателей.

Рис. 30. Графическое представление статистического ряда: распределение наконечников стрел по длине

Рис. 30. Графическое представление статистического ряда: распределение наконечников стрел по длине

1. Показатели концентрации, т. е. характеристики меры центральной тенденции ряда, его типичных вариант: мода, медиана, средняя арифметическая и другие средние величины (геометрическая, взвешенная и т. д.).
2. Показатели рассеяния, т. е. характеристики степени отклонения вариант от центральной тенденции, меры их разброса: среднее квадратическое отклонение, дисперсия, коэффициенты асимметрии и вариации.

Мы рассмотрим только основные из них. Для разнообразия воспользуемся еще одним примером: распределением
бронзовых карасукских ножей по величине центрального угла.

Значения этого признака представлены в таблице 3. Показатели концентрации. Мода — значение варианты, на которую приходится наибольшее количество наблюдений. Так, в таблице распределения наконечников стрел по длине наибольшая частота приходится на варианту 33 мм (т. е. от 31 до 33 мм). В распределении карасукских ножей по величи-

osnovyi-statistiki-5

не центрального угла значение моды — 170° (т. е. наибольшее число ножей имеет угол от 160 до 170°).

Медиана — варианта, находящаяся точно в середине ряда. В ряду наконечников стрел медианой будет варианта со значением 37 мм, в ряду ножей — 150°.

osnovyi-statistiki-6

osnovyi-statistiki-7

потому что отклонения от х со знаком «+» могут оказаться равными отклонениями от х со знаком «—». Поэтому, чтобы получить искомую меру, нужно избавиться от разных знаков, не теряя пропорциональности всего выражения. Это легко сделать, если каждую разность (х—Хг) возвести в квадрат (х—хг*)2. Пропорция не изменится, а отрицательные знаки исчезнут. В результате такой операции, т. е. возведя каждую разность в квадрат и умножив ее на соответствующую ей частоту (Л), мы получим величину, именуемую дисперсией:

osnovyi-statistiki-9

ложено в специальной литературе, чтение которой требует определенной подготовки и в настоящем пособии не приводится. Сознавая, что всякая попытка упростить четко сформулированные научные понятия чревата опасностью вульгаризации, подойдем к характеристике вероятности через эмпирическое понятие частоты.

В рассмотренных примерах чаще всего встречаются наконечники стрел длиной 33 мм, ножи с центральным углом в 170° и т. д. Если частоту встречаемости этих вещей выразить в виде доли от общего количества, мы получим их относительную частоту. Так, в первой совокупности у нас 90 наконечников. Из них наконечников длиной 33 мм 25 экземпляров. Их относительная частота

osnovyi-statistiki-10

Теперь представим себе, что исходная совокупность неограниченно возрастает, т. е. каждая из них содержит не 90 или 236 экземпляров, а намного больше и продолжает увеличиваться. Тогда если W->oo, то А->Р, т. е. по мере возрастания исходной совокупности относительная частота какого-то одного значения будет приближаться к величине, которая называется вероятностью (Р). Вероятность того, что среди раннетагарских бронзовых наконечников стрел будут встречаться наконечники длиной 33 мм, приблизительно равна 28%, а вероятность того, что среди карасукских ножей будут встречаться ножи с центральным углом в 170°, приблизительно равна 43%. Соотношение между h и Р — одно из основных соотношений теории вероятностей.

Нормальное распределение. Рассмотрим серию однородных андроновских сосудов, найденных при раскопках могильника Тасты-Бутак. Будем измерять отношение их наибольшего диаметра к высоте (см. рис. 33). Этот признак дает некоторое представление о пропорции сосуда. Результаты измерений представим в графике (рис. 34). Нужно сразу приучать себя к «чтению» графиков. Нередко по чисто визуальной оценке графика, без каких-либо дополнительных вычислений, можно составить предварительное суждение о характере рассматриваемой статистической совокупности. О чем говорит данный график? Наибольшее число сосудов сгруппировалось около значений 0,96—1,04. Нарушения однородности незначительны и проявляются в виде примерно одинаковых отклонений в меньшую и большую сторону. Распределения такого типа, когда график представляет собой
почти симметричную, одновершинную кривую, называются близкими к нормальному распределению.

Если бы мы измеряли пропорции не заведомо близких по форме горшков, а вперемешку, без выбора, — горшков и банок,— график получился бы совсем иным (рис. 34). Его можно объяснить как результат частичного наложения друг на друга двух нормальных распределений. Так становятся более очевид-

osnovyi-statistiki-11

ными различия в форме двух типов андроновских сосудов, которые при поодиночном рассмотрении могут остаться незамеченными.

Здесь уместно подчеркнуть важный вопрос, возникающий при анализе самых различных материалов: а сами андроновцы различали эти два типа сосудов, или же это результат наших предположений? Без статистического анализа на этот вопрос невозможно ответить твердо ни «да», ни «нет». При желании можно подобрать такой ряд сосудов, при котором на одном конце стоял бы типичный горшок, а на другом — типичная банка, а пространство между ними было бы заполнено сосудами, которые бы постепенно демонстрировали переход одного типа в дру¬гой. Различия между ними можно было бы объяснить степенью мастерства, отсутствием измерительных инструментов, качеством глины и т. д. Статистический анализ позволяет твердо сказать: если бы дело было только в этих причинах, график был бы одновершинным, близким к нормальному, как на рис. 33. У мастера была реальная или мысленная модель горшка или банки. В каждом случае он стремился одну из этих моделей воспроизвести. В одних случаях ему это удавалось лучше (горшки в интервале 1,0—1,4 или банки в интервале 0,84—0,88), в других — хуже. Худшие результаты располагаются на графике в области отклонений. Однако в общей массе рассмотренных сосудов эти отклонения в пропорциях незначительны и не влияют на общий характер статистического распределения значений признака. Распределения такого типа, когда график представляет собой почти симметричную одновершинную кривую, называются близкими к нормальному распределению.

Процессов, подобных примеру с изготовлением андроновского сосуда, когда в нем участвуют разные, не очень значительные случайные причины, очень много в природе, обществе и культуре. Однако далеко не все из них поддаются разумному измерению. Как, скажем, измерить степень мастерства древнего гончара? У одного твердая, опытная рука, он вылепил профиль и пропорции сосуда в точности с замыслом или с теми «эталонами», на которых его учили. У другого в какой-то момент рука дрогнула и пропорции нарушились. В одном случае сосуд деформировался при высыхании, в другом — при обжиге и т. д.

Если рассматривать каждый предмет отдельно от других и точно фиксировать все улавливаемые различия, мы никогда не сможем выйти на уровень обобщений и будем на самом деле изучать индивидуальные особенности работы данного мастера. Такие исследования тоже бывают нужны в археологии, но это особые задачи.

Если же задачи исследователя требуют обобщений результатов изучения массовых материалов, от отдельных деталей нужно отвлечься и искать общие тенденции. Но общая тенденция, как правило, скрыта теми же небольшими индивидуальными отличиями. Ее нужно выявить, устранив влияние малых отклонений. Чтобы в такой «очистке» не возобладал субъективный подход, используется закон нормального распределения.

Закон нормального распределения (распределение Гаусса) играет очень важную роль в решении задач, подобных только что рассмотренному примеру. Если допустить, что число наших наблюдений (т. е. количество измеряемых сосудов) неограниченно возрастает, а интервал мeждv значениями признака неограниченно сокращается (например, при измерении: 0,4; 0,04; 0,004 и т. д.), то график распределения из ломаной линии превратится в плавную симметричную кривую, напоминающую продольный разрез колокола. Нормальный закон является математической моделью многих природных и общественных явлений, в которых преобладающую роль играет какая-то одна главная тенденция, а различные побочные факторы, случайно влияющие на нее и изменяющие ее, незначительны, действуют как в сторону увеличения, так и в сторону уменьшения главной тенденции и поэтому (при достаточно большом количестве наблюдений) уравновешивают друг друга.

Понятие «главная тенденция» слишком абстрактно. Поэтому важно в каждом случае заменить ее каким-то конкретным содержанием, признаком, причем таким, который может быть выражен количественно. Так, в наших примерах признаки количественные: центральный угол карасукского ножа и отношение высоты сосуда к его диаметру. Сам выбор признака представляет собой весьма ответственную задачу. Нужно быть уверенным, что выбранный признак действительно отражает некое важное свойство данной серии предметов.

Рис. 35. Сосуды заведомо разных форм, совпадающих по значению признака H/D

Рис. 35. Сосуды заведомо разных форм, совпадающих по значению признака H/D

Исходя из этого, признак далеко не всегда будет «работать». Можно привести много примеров, когда совершенно разные сосуды могут совпадать по признаку (рис. 35).

Закон нормального распределения позволяет рассматривать и решать задачи об однородности или неоднородности той или иной серии вещей, т. е. относятся ли они к одному или к разным типам. Общая схема рассуждений выглядит следующим образом. Пусть имеется некая серия вещей, которые кажутся нам однородными, например андроновские сосуды, карасукские ножи, скифские наконечники стрел и т. д. Если эти предметы действительно однородны, то распределения каких-то их признаков должны соответствовать нормальному закону. И наоборот, если построенное распределение не является нормальным, значит, в данной серии объединены разнородные предметы, но не вообще разнородные, а разнородные по избранному признаку. Данная оговорка очень важна, поскольку далеко не всякий признак достаточно «чутко» реагирует на изменчивость вещей и не всякий признак отражает суть данной вещи.

Теоретические и эмпирические распределения. Нормальный закон и другие математико-статистические построения — это теоретические модели, т. е. эталоны, с которыми сравнивается данное эмпирическое распределение изучаемого признака. Подавляющее большинство задач математической статистики решается по одной и той же схеме: составляется эмпирическое распределение, определяются его основные показатели (например, среднее арифметическое х и дисперсия а2), которые затем сравниваются с теоретическим распределением, построенным на таких же показателях. Затем из этого сравнения делается вывод о соответствии или несоответствии эмпирического распределения теоретической модели. Еще раз повторим, общую схему рассуждений.

Пусть имеется какая-то серия вещей, которые по первому впечатлению можно считать однородными (керамические сосуды, бронзовые ножи, наконечники стрел и т. д.). Если вещи действительно однородны, то распределение значений определенных признаков этих предметов должно соответствовать нормальному закону. И наоборот, если построенное распределение не является нормальным, значит, в данной серии объединены разнородные по избранному признаку предметы.

Обратимся к распределению наконечников стрел по их длине (рис. 30). Общий вид графика, то, что в нем выделяются три пика (33, 39 и 45 мм), говорит о том, что данное распределение не соответствует нормальному закону. Следовательно, внутри этой серии наконечников представлено по крайней мере три разные группы.

Иная картина наблюдается при анализе распределения бронзовых карасукских ножей по их центральному углу. Здесь получилось одновершинное распределение (рис. 36). Можно ли на этом основании предположить, что карасукские ножи однородны по центральному углу? Для ответа на этот вопрос построим на тех же координатных осях нормальную кривую с теми же показателями: дс=165° и а= 12°. Она, как это видно из графика на рис. 36, существенным образом отличается от эмпирической кривой. Однако визуальная оценка в данном случае может оказаться ненадежной. В математической статистике разработаны точные критерии проверки нормальности распределения. Ввиду недостатка места они не приводятся в настоящем пособии. Воспользуемся сокращенным способом проверки — правилом «трех сигм» (интеграл Лапласа). Согласно этому правилу, в нормально распределенной совокупности 68% всех значений признака не выходят за пределы интервала длиной х±о. В пределах интервала х±2а располагается 95,5% всех значений признака, а в интервале х±Ъа — 99,7%. В нашем случае, как это видно из графика, правило «трех сигм» не соблюдается. Следовательно, распределение карасукских ножей по центральному углу не подчиняется нормальному закону, а из этого, в свою очередь, следует вывод о неоднородности данной серии ножей.

В самом деле, если присмотреться к особенностям ножей, то нетрудно заметить, что в начальной части горизонтальной оси расположились все так называемые ложносоставные ножи и ножи с уступом. Их центральный угол не превышает 140°. Если отделить эту группу от остальных ножей и для каждой из двух групп построить свой график распределения по величине центрального угла, мы получим две кривых, каждая из которых в отдельности очень близка к нормальному закону. Такое распределение указывает на то, что внутри каждой группы ножи достаточно однородны по величине центрального угла.

Этот факт получает вполне логичную историческую интерпретацию. Ложносоставные ножи демонстрируют начальную стадию технологии их изготовления. Образцом служил составной нож. Его рукоятка делалась из рога или дерева (такие ножи

Рис. 36. Распределение бронзовых карасукских и татарских ножей по величине центрального угла: 1 — эмпирическое распределение; 2— теоретическое распределение (нормальная кривая)

Рис. 36. Распределение бронзовых карасукских и татарских ножей по величине центрального угла:
1 — эмпирическое распределение; 2— теоретическое распределение (нормальная кривая)

известны в энеолите), а медное или бронзовое лезвие вставлялось в специально вырезанный сквозной паз (рис. 28, 1). Угол между лезвием и рукояткой имел четкую механическую функцию: лезвие заклинивалось в рукоятке. Затем ножи стали отливать и проковывать целиком из бронзы, но по традиции они сохраняли прежнюю форму. Отсюда и толстая рукоятка, и угол между рукояткой и лезвием. Таким образом, две группы ножей, выделанные по центральному углу, отражают различные хронологические этапы развития этого орудия и указывают на их последовательность.

В данном примере проверялась гипотеза о том, принадлежат ли все рассмотренные ножи к одной (однородной) совокупности, т. е. к одному типу. Было установлено, что данная совокупность неоднородна и состоит, по крайней мере, из двух разных типов ножей (возможно, что и больше, чем из двух). Этот факт можно считать доказанным. Но из этого вовсе не следует, что доказанность факта автоматически распространяется и на предложенное объяснение. Неоднородность установлена методами математической статистики, а к объяснению они никакого отношения не имеют. Объяснение сделано историко-археологическими методами.

Статистика качественных признаков. Если почему-либо трудно или неудобно выразить изучаемые признаки в количественной форме, можно вместо значения признака указать его название и распределить изучаемый материал по названиям признаков (в шкале наименований). Одной из типичных для археологии задач является следующая. На многослойном древнем поселении вскрыта часть площади. Учет находок ведется по типам и слоям. Каждому слою присуще свое, определенное соотношение типов находок, отличное от предыдущего и последующего слоев. Эти особенности соотношения типов находок по слоям служат археологу основанием для датировок и для выводов об изменениях в хозяйственно-экономической деятельности. Но поселение раскопано не полностью, разграничения между слоями установлены не всегда точно, изменчивость в типах находок недостаточно очевидна. Поэтому есть основания для сомнений в том, насколько достоверны наблюдаемые различия в распределении типов вещей между слоями, не сработали ли здесь какие-либо случайные причины, которые мы принимаем за закономерные. Для решения подобных задач можно использовать специальные статистические критерии значимости наблюдаемых различий в эмпирических совокупностях. Рассмотрим на реальных примерах один из них, наиболее простой и широко используемый.

Критерий К. Пирсона (хи-квадрат).

Стратиграфические наблюдения при раскопках стоянки Фронтовое I в Крыму позволили выделить четыре слоя: два нижних — мезолит, два последующих — неолит. Распределение основных групп кремневых орудий по слоям представлено в табл. 4, где цифрами обозначены следующие группы орудий: 1 — вкладыши, 2 — скребки, 3 — пластинки с приостряющей ретушью, 4 — пластинки с выемками, 5 — резцы, 6 — наконечники стрел, дротиков, острия. Из таблицы видно, что со временем удельный вес вкладышей со вторичной обработкой убывает (I). Доля скребков, наоборот, со временем увеличивается (2), а доля пластинок с приостряющей ретушью (3) уменьшается и т. д. Но что это — результат каких-то закономерных изменений в производстве, или случайные колебания за счет того, что площадь

osnovyi-statistiki-14

памятника вскрыта только частично, или разграничение между слоями проведено неточно и т. п.? Ответ на этот вопрос можно получить применив к данным распределениям критерий хи-квад¬рат.

Смысл критерия состоит в следующем. Допустим, что различия между частотами того или иного признака случайны. Тогда можно вычислить вероятность того, что случайные расхождения между значениями признака могут достигнуть фактически наблюдаемой величины. Если эта вероятность окажется малой (например, не более 5%), то гипотеза о случайных различиях отвергается и различия признаются не случайными, а закономерными. Затем мы ищем объяснение этому факту, его историческую интерпретацию, которая строится уже не математическими, а историко-археологическими средствами.

Продолжим рассмотрение примера. При сравнении двух эмпирических совокупностей значение хи-квадрата вычисляется по формуле

osnovyi-statistiki-15

где р\ (i=l, 2, 3, …, 7) — эмпирические частоты данного признака или типа в первой совокупности; р” (i— 1, 2, 3, …, 7) —эмпирические частоты второй совокупности; п! — объем первой совокупности, п» — объем второй совокупности. Вычисленное по этой формуле значение хи-квадрата соответствует некоторой вероятности, с которой может быть отвергнута или принята проверяемая гипотеза. Граничные значения критерия, соответствующие допустимым вероятностям, представлены в специальных таблицах, имеющихся в любом пособии по математической статистике. Суть проверки сводится к тому, что полученное эмпирическое значение %2 сравнивается с табличными. Если эмпирическое значение %2 превосходит теоретическое (табличное) для вероятности 99% (x2>Xo,oi), то гипотеза о случайных различиях отвергается. Если Хо,о5<Х2<Хо,оi отданных недостаточно ни для принятия гипотезы, ни для отказа от нее. Если гг<2о,05,хе. для вероятности 95%, то гипотеза принимается. Можно проверить значимость хи-квадрата и без обращения к таблицам, по способу Романовского. Если

osnovyi-statistiki-16

osnovyi-statistiki-17

Критерий хи-квадрат имеет несколько модификаций, приспособленных для различных задач. Рассмотрим еще один пример использования хи-квадарта при так называемом альтернативном распределении значений качественного признака.

Среди наскальных изображений Средней Азии встречаются рисунки повозок и колесниц, запряженных разными животными
(в основном быками и лошадьми). Для наскального искусства была характерна особая манера изображения повозок и колесниц: как бы сверху при снятых и положенных плашмя колесах (рис. 37). Упряжные животные при этом обращены ногами в одну или в разные стороны. Наряду с этим встречаются обычные изображения и повозок, и животных как бы в профиль, но их мало. На изображениях можно видеть также сплошные колеса малого диаметра и колеса большого диаметра со спицами. Интуитивно возникает гипотеза о том, что такие признаки, как

Рис. 37. Изображение повозок и колесниц: 1 - профиль; 2 — план

Рис. 37. Изображение повозок и колесниц: 1 — профиль; 2 — план

«профиль» и сплошное колесо малого диаметра, могут служить основанием для относительных датировок, поскольку по другим признакам профильные изображения и колеса малого диаметра создают впечатление архаичности. Но впечатление — не доказательство, поэтому содержательную гипотезу следует перевести в плоскость статистической гипотезы. Для этого составим таблицу распределения признаков (табл. 6).

osnovyi-statistiki-19

osnovyi-statistiki-20

следовательно, гипотеза о случайных различиях отвергается. Иными словами, предположение о том, что сочетание профильных изображений упряжных животных и повозок с малыми сплошными колесами не случайно, а устойчиво, имеет достаточно высокую вероятность. Здесь следует предостеречь от распространенной ошибки. Если статистическая гипотеза не выдерживает проверки, то вместе с ней отвергается и соответствующая ей содержательная гипотеза. Если же статистическая гипотеза подтвердилась, то этого еще недостаточно для того, чтобы безоговорочно принять соответствующую ей содержательную гипотезу. Необходимо найти дополнительные, не зависимые от проверяемых признаков факты, согласующиеся с содержательной гипотезой. В рассмотренном выше примере было показано еще и то, что сочетание данных признаков чаще встречается на архаичных изображениях в других материалах (керамика, рельефы). Следовательно, и в петроглифах их можно считать более ранними, чем изображения колесниц на колесах большого диаметра со спицами.

Корреляция. Каждый археологический объект может быть охарактеризован многими качественными и количественными признаками. Нередко приходится наблюдать связь между ними: изменение значения одного признака влечет за собой изменение значения другого признака. Например, стенки сосуда большого объема будут толще, чем стенки сосуда меньшего объема. Но такие связи выявляются в среднем, а не на каждом отдельном предмете. Можно привести много отдельных примеров, когда сосуд малого объема будет толстостенным, а сосуд большого объема будет иметь более тонкие стенки. Если же изучить серию сосудов, то окажется, что в целом рост объема сосуда влечет за собой увеличение толщины его стенок. Однако данный пример достаточно тривиален. Между размером сосуда и его емкостью существует прямая функциональная связь, существует она и между емкостью и толщиной стенок, поскольку нужен определенный запас прочности. Итак, если изменение одного признака строго однозначно влечет за собой изменение другого признака, такая связь называется функциональной. Если же изменение одного признака влечет за собой изменение другого признака не однозначно, а с некоторой вероятностью, такая связь называется корреляционной. Если при увеличении одного признака в среднем увеличивается значение другого признака, корреляция положительная. Если при увеличении одного признака в среднем уменьшается значение другого признака, корреляция отрицательная.

Рис. 38. Корреляция между величиной центрального угла и длиной карасукских ножей

Рис. 38. Корреляция между величиной центрального угла и длиной карасукских ножей

Корреляция количественных признаков. При беглом просмотре серии упоминавшихся выше карасукских ножей создается впечатление, что длина клинка тем больше, чем больше центральный угол между клинком и рукоятью. Однако это не очевидно, поскольку встречаются ножи с малым углом и длинным клинком (137°, 13 см) и с большим углом и коротким клинком (170°, 9 см). Допустим, что предлагаемая связь между признаками является результатом случайных причин, на самом же деле ее нет. Эту гипотезу можно проверить. Для этого построим корреляционную таблицу (рис. 38). По вертикальной оси отложим возрастающее значение центрального угла, а по горизонтальной — длину клинка. Каждый крестик представляет конкретный нож с данным значением признаков. Распределение ножей в таблице четко показывает определенную тенденцию: хотя отдельные ножи «нарушают» это правило, но их немного, а основная масса показывает, что при увеличении центрального угла длина клинка увеличивается. Специальный показатель — 0. коэффициент корреляции (который здесь опущен ввиду недостатка места) позволяет вычислить меру такой связи.

Рис. 39, Распределение концентраций примесей мышьяка в бронзе (но Черныху): А--бусы, подвески, булавки; /> ножк. топоры, наконечники стрел, копий, серпы

Рис. 39, Распределение концентраций примесей мышьяка в бронзе (но Черныху):
А—бусы, подвески, булавки; /> ножк. топоры, наконечники стрел, копий, серпы

Метод корреляции количественных признаков используется в археологии не только для установления связи между ними. но и как средство классификации: для выявления групп объектов и установления границ между ними. Особенно эффективным этот метод оказался в задачах по истории древней металлургии для выявления типов сплавов древней бронзы и для ответа на вопрос, случайно ли наблюдаемое сочетание компонентов сплава или это осознанный древним металлургом рецепт (рис. 39).

Корреляция качественных признаков. Использование метода корреляции качественных признаков дает в руки археолога эффективный аппарат выявления связей между признаками или типами объектов, а также может служить средством классификации массовых однородных материалов. Пионерами использования методов корреляции в советской археологии были П. П. Ефименко. М. П. Грязнов, П. Н. Третьяков и А. В. Арциховский. Наибольший вклад в адаптацию этого метода применительно к археологии внес М. П. Грязнов в своей работе «Древние бронзы Минусинских степей. Кельты» (1941).
Суть метода состоит в следующем. Изучая серию более или менее однородных вещей, мы замечаем, что будто бы существует зависимость между какими-то парами признаков. Например, изменение внешней формы предмета влечет за собой в ряде случаев изменение его орнаментации или определенных технических приемов. Важно знать, действуют ли здесь определенные закономерности или это отдельные случайные факты. Помимо ответа на этот вопрос мы можем также выяснить, однородна или неоднородна рассматриваемая серия вещей.

В отличие от корреляции количественных признаков установление корреляции между качественными признаками — работа значительно более трудоемкая и сложная. Пользуясь количественными признаками, мы можем расположить их по осям координатной сетки в порядке возрастания или убывания, т. е. последовательность изменения значений признаков нам заранее известна. Составление корреляционной таблицы сводится к ее заполнению результатами измерений соответствующих предметов. Составляя корреляционную таблицу по качественным признакам, мы, как правило, не знаем последовательности их изменений. Поэтому при таком исследовании решается обратная задача. Сначала таблица заполняется в произвольном порядке, и ее клетки заполнены «россыпью» точек, обозначающих сочетание данной пары признаков на каждом предмете. Затем путем последовательной, многократной перестановки строк и столбцов таблицы мы ищем такую упорядоченность заполненных клеток таблицы, при которой их расположение будет близко к диагонали (в данном случае неважно, слева вверх направо или, наоборот, справа вверх налево). Если удается выстроить заполненные клетки так, чтобы их последовательность располагалась вдоль или около воображаемой диагонали, значит, связь между признаками существует. Если же помимо диагонального расположения заполненные клетки образовали некоторые сгущения, отделенные друг от друга промежутками, то можно говорить об определенных группах вещей, выделяющихся по данной паре признаков.

В таблице (рис. 40), составленной М. П. Грязновым, выявлена корреляция между разными признаками минусинских бронзовых кельтов. В основном это были случайные находки, не связанные с комплексом и потому представлявшие собой смешанный материал. Горизонтальные строки таблицы соответствуют 19 разновидностям (признакам) формы кельта. Вертикальные столбцы фиксируют 40 вариантов орнаментации, включая «пустой», т. е. без орнамента. Таким образом, получаем двухмерное пространство признаков. М. П. Грязнов ввел еще и третье измерение, обозначив условными знаками способ орнаментации. В целом таблица представляет собой трехмерное пространство признаков. Цифры в клетках обозначают количество одинаковых кельтов, характеризующихся сочетанием данной пары или «тройки» признаков.

Первоначально таблица имела совершенно неупорядоченный вид (см. схему построения — рис. 41). Следующий этап — перестановка столбцов до тех пор, пока не появится какое-то упорядочение по строкам. Затем — перестановка строк с целью добиться расположения групп заполненных клеток в близком к диагонали виде.

Какие выводы можно сделать из итоговой таблицы? Сгруппированные клетки расположились по линии, которая как бы ступеньками протянулась слева вниз направо. Хотя она и не образует настоящую диагональ, но общее направление имеет тенденцию к диагонали. Места перехода от одной «ступеньки» к другой, по-видимому, можно рассматривать как границы между типами, те самые размытые границы, о которых речь шла

osnovyi-statistiki-24

выше. Это дало право автору оконтурить каждую ступеньку и отдельную группу клеток внизу жирной линией, чтобы зрительно они выделялись. Направление взаимосвязанных групп, вероятно, отражает направление типологического развития этих предметов. Отделившийся от других VI тип скорее всего является самостоятельной группой кельтов, не связанной с основной массой. Возвращаясь к первым пяти группам, следует отметить, что из таблицы неясно, в какую сторону шло типологическое развитие, от 1-й к 5-й или наоборот. На этот вопрос никакие математические методы ответить не могут. Но достаточно определить дату двух-трех кельтов (из более чем 400) из разных групп, как сразу можно определить и направление, и относительную хронологию.

Корреляция между количественными и качественными признаками. Возникает ряд задач промежуточного характера, когда необходимо установить наличие или отсутствие связи между количественными и качественными признаками. Они решаются по той же схеме. Строится корреляционная таблица, на одной оси которой откладываются значения качественного признака, а на другой — количественного. Рассмотрим соотношение между типами гераклейских амфор и их емкостью. Если брать эти амфоры поодиночке, то среди разных типов можно найти и разные по емкости амфоры. Отсюда можно сделать вывод, что тип амфоры не связан с ее емкостью, а наблюдаемые совпадения между определенным типом и емкостью порождены случайными причинами. Если же взять достаточно большую серию амфор и построить таблицу, то мы увидим (рис. 42) довольно четкую диагональ, свидетельствующую о том, что типы амфор связаны с определенными емкостями, а отдельные отклонения от этой закономерности носят случайный характер.

Рис. 42. Соотношение (корреляция) между типами гераклейских амфор и их емкостью (по Брашинскому)

Рис. 42. Соотношение (корреляция) между типами гераклейских амфор и их емкостью (по Брашинскому)

Вообще нужно сказать, что рассмотренные выше примеры представляют собой вчерашний день методов математической обработки археологических данных и наблюдений. Пользуясь ЭВМ, археолог может строить многомерные корреляционные пространства и обнаруживать гораздо более тонкие закономерности. Однако к сложному аппарату невозможно подступиться без понимания самых простых основ, отраженных в наших примерах.

К оглавлению книги «Методы археологического исследования» / К следующей главе

В этот день:

  • Дни рождения
  • 1908 Родился Уиллард Франк Либби — американский химик, разработчик метода радиоуглеродного датирования. Этот метод используют археологи, почвоведы и геологи для определения возраста биологических объектов.

Метки

Свежие записи

Рубрики

Updated: 02.11.2014 — 12:04
Яндекс.Метрика