Алгоритм типологизации

Объемы хранимой и обрабатываемой информации в современном мире зашкаливает, поэтому ни одну современную сферу деятельности человека невозможно представить без внедрения в неё достижений информатики. Вот почему все специальности, связанные с информатикой сейчас очень востребованы. Информатика совсем не простой предмет, поэтому, если требуется помощь с дипломными, курсовыми, контрольными по любому разделу информатики, вы можете перейти по ссылке выше и получить всю необходимую поддержку.

В настоящем разделе рассматривается эксперимент по машинному анализу стилистических элементов (в дальнейшем — признаков). Структура исследования, его алгоритм и программа для ЭВМ таковы, что ими можно без изменений пользоваться и при анализе других данных (семантических, хронологических и иных признаков). Для перехода на новые данные потребуется изменить язык описания в соответствии с теми исходными данными (признаками), которые должны быть подвергнуты анализу.

3.1. Формализация языка описания. При сравнении рисунков на интуитивном уровне исследователь явно или подсознательно отмечает какие-то общие или разные признаки, по которым рисунки сходны или различны. Обычно совокупность признаков не излагается в явной форме, а трансформируется в сознании исследователя в форму «визуальных суждений» или высказываний субъективно-оценочного плана: «изящные линии», «архаический облик», «грубый», «примитивный», «стройный», «динамичный» и т. п. Поэтому первым шагом к строгой формулировке задачи классификации рисунков представляется явное (эксплицитное) изложение перечня признаков, по которым рисунки будут сравниваться между собой. Требования к перечню (списку) признаков и к самим признакам в общем не отличаются от таковых в других случаях археологической классификации и излагались в печати [Каменецкий и др., 1975].

Рис. 9. Базовые точки для формализованного описания

Рис. 9. Базовые точки для формализованного описания

На каждом изображении животного (рис. 9) могут быть отмечены достаточно строго фиксированные базовые точки: А — передний край морды, В — задний край крупа, С — основание задних ног (если показана только одна задняя нога, С фиксируется на стыке ноги с линией живота), D — основание передних ног (если одна нога — на стыке с линией живота), I, K, L, M — крайние нижние точки ног, N — точка на кончике уха.

На этих точках могут быть построены вспомогательные линии и на их пересечении — новые точки, так же достаточно строго фиксированные: ЕD — перпендикуляр, восстановленный из точки D к прямой АВ до пересечения с линией спины (точка E); СС’ — перпендикуляр из точки С к прямой АВ (или к ее продолжению); F — самая нижняя точка спины; FН — перпендикуляр к АВ через точку F; отрезки IK, KL и LM очевидны из рис. 9.

Теперь рисунки могут сравниваться между собой по единому перечню качественных и количественных признаков. Выбор этого списка признаков является пока полностью творческой процедурой, во многом зависит от интуиции исследователя и не может быть полностью формализован. Однако в отличие от упоминавшегося выше метода сравнения по общему облику, визуальным и субъективно-оценочным суждениям сравнение по списку признаков полностью проверяемо и воспроизводимо в любом своем звене.

3.2. Список признаков.
1. Корпус массивный — ED≈FH≈ВС
2. Корпус поджарый — ЕD>FН>ВС
3. Корпус с «талией» — ЕD>FН<ВС 4. Корпус грузный — EDBC
5. Корпус линейный — (ЕD + ВС)< 6. Ноги (I) —ЕI и ВМ пересекаются вверху или параллельны 7. Ноги (II) — EI и ВМ пересекаются внизу 8. Ноги (III) — ЕК и ВL пересекаются внизу 9. Голова удлиненная — AN 10. Голова укороченная — АN 11. Глаз сопряжен с контуром головы 12. Глаз отделен от контура головы 13. Ухо треугольной формы (рис. 2) 14. Завиток на лопатке 15. Завиток на корпусе 16. Завиток на бедре 17. Гребневидный султанчик на голове (рис, 6:2) 18. Ноги заднего по отношению к зрителю плана механически сдвинуты в одну плоскость с ногами переднего по отношению к зрителю плана (рис. 6:2; 10:11) 19. Рога оленя 20. Рога лося 21. Хвост короткий 22. Хвост средний (не ниже лытки) 23. Хвост длинный (ниже лытки) 24. Животное обращено головой влево (от наблюдателя) 25. Животное обращено головой вправо (от наблюдателя) Список содержит в основном качественные признаки с нестрогой формализацией некоторых из них. Конечно, такая система описания, построенная на неколичественных признаках, несовершенна. Она имеет промежуточный характер. Уяснив логику метода сравнения и классификации рисунков на такой основе, можно затем перейти к более строгой системе записи, рассчитанной на использование ЭВМ. В таком случае вместо задания списка признаков может быть использована какая-либо электронно-оптическая система ввода в ЭВМ графической информации. Краткость списка объясняется его экспериментальным характером, однако он открыт для пополнения признаками, не предусмотренными при первичном описании. Информация о сравниваемых рисунках может быть представлена в виде матрицы mXn (m — число рисунков, n — число признаков), по строкам которой расположены рисунки, а по столбцам — признаки (табл. VIII). Наличие данного признака отмечается в соответствующих строке и столбце единицей, отсутствие — нулем. В результате каждый рисунок представляется вектором-строкой, компонентами которого являются единицы и нули на соответствующих местах. formalization

formalization-2

3.3. Показатель сходства. Представлением рисунка в виде вектора решается только первая часть задачи — преобразование исходного материала в удобную для математической обработки форму. Вторая ее часть состоит в том, чтобы сходство между рисунками выразить количественно. Для этого можно воспользоваться одним из показателей сходства, известных из таксономического анализа, например:

funk

Рассмотрим серию рисунков, выбор которых был произвольным и диктовался чисто интуитивными соображениями об их сходстве и различии (рис. 10). Формализованная запись этих изображений в виде векторов-строк представлена в табл. VIII. Показатели сходства между каждой парой рисунков, вычисленные по приведенной формуле, представлены в табл. IX. Классификация рисунков по степени их сходства между собой выполняется дальше автоматически, без обращения к содержанию рисунков. Для этого можно применить один из алгоритмов, используемых теорией распознавания образов [Загоруйко, 1972: Дуда, Харт, 1976 и др.].

3.4. Выбор алгоритма. Здесь не место для обсуждения успехов, достигнутых методами теории распознавания образов, как и слабых мест этих методов. Заинтересованный читатель найдет ответы на свои вопросы в специальной литературе, а еще лучше — при непосредственных консультациях с профессионалами. Хотелось бы только отметить некоторые «подводные камни», которые желательно избежать с самого начала при решении экспериментальных задач типа той. что рассматриваем мы. Идеальным был бы алгоритм, позволяющий все исходные данные смешать в «кучу», а ЭВМ пусть выбирает из нее сходные объекты и формирует группы. Создание таких алгоритмов связано с большими трудностями, хотя и не невозможно.

Более простым является в принципе подобный же алгоритм, но отличающийся тем, что исследователю заранее известно число групп. Скажем, для петроглифов среднего Енисея известно, что они должны разделиться не менее чем на четыре группы: дотагарскую, тагарскую, таштыкскую и древнетюркскую. Количество и состав рисунков, которые войдут в каждую группу, неизвестны. Такие алгоритмы получили название «алгоритмы ближайшего соседа». Если мы точно не знаем, каким должно быть число групп, можно задать машине перебор нескольких вариантов (пять групп, шесть групп) и затем рассмотреть их с привлечением дополнительных данных на содержательном уровне.

Рис. 10. Изображения, использованные в машинном эксперименте: 1—16 — Енисей (12 — [Кызласов, 1960]; 13, 16 — [Грязнов, 1971]); 17—18 — Ангара [Окладников, 1966 (I)]

Рис. 10. Изображения, использованные в машинном эксперименте: 1—16 — Енисей (12 — [Кызласов, 1960]; 13, 16 — [Грязнов, 1971]); 17—18 — Ангара [Окладников, 1966 (I)]

В данной задаче использовался «алгоритм ближайшего соседа», однако содержательная ориентация результата была несколько иной, чем простая классификация, поэтому число групп, на которые разделятся рисунки, решающего значения не имело. Интереснее было другое: если элементы плана выражения (стилистические признаки) действительно могут играть роль классификаторов, то рисунки разных животных, имеющие общие стилистические признаки, должны объединиться в одну группу. Как это станет ясно дальше, для данной задачи «алгоритм ближайшего соседа» оказался вполне подходящим. Однако для задач с иной содержательной ориентацией он может стать неэффективным. Например, в случае когда число групп неизвестно, а выбор признаков произволен, потребуется значительно более сложный алгоритм. Как отмечают специалисты, распространенной ошибкой в подобных случаях является использование алгоритмов «наложения структуры на данные вместо нахождения их структуры» [Дуда, Харт, 1976, с. 255].

funk-2

Таблица X. Граф связей между группами рисунков разных эпох и культур: I — неолит; II — скифо-сибирский стиль; III — таштыкская культура; IV — тюркское время

Таблица X. Граф связей между группами рисунков разных эпох и культур:
I — неолит; II — скифо-сибирский стиль; III — таштыкская культура; IV — тюркское время

funk-4

3.6. Интерпретация. В первую группу связались рисунки лосей, два из которых происходят с берегов среднего Енисея, а два других — с Ангары. Стилистическое единство этих рисунков уже отмечалось в предварительных публикациях [Шер и др., 1967, с. 147] и более подробно рассматривается в данной книге.
Вторая группа состоит из рисунков, обладающих стилистическими особенностями, присущими татарскому искусству с характерными для него признаками скифо-сибирского звериного стиля. Внутри нее выделяется
более весомыми связями подгруппа усть-тубинских рисунков, несущих на себе явные черты пазырыкской изобразительной традиции.

В третьей группе объединились изображения животных, выполненные в особой таштыкской манере. Интересно, что во второй и третьей группах объединены рисунки животных различной видовой принадлежности. К тому же рисунки третьей группы сделаны на предметах из разных материалов: 13 и 16 — дерево, 9 и 11 — камень, 12 — бронза. Тем самым подтверждается гипотеза о роли стилистических признаков как классификаторов, способных выделять типы по стилю независимо от содержательных признаков.

В четвертой группе оказались изображения всадников древне-тюркского стиля и времени.

Преимущества рассмотренного алгоритма перед интуитивными методами классификации очевидны. В данном случае были использованы стилистические признаки, и классификация дала типы рисунков по стилю. Заполнив матрицу исходных данных признаками иного характера, можно получить соответственно и другие классификации. Фиксированный список признаков и количественная мера сходства резко повышают возможность верификации и воспроизводимости результатов исследования. Исследование, конечно, не становится абсолютно объективным, но оснований для споров на основе субъективных оценок степени сходства становится намного меньше. К тому же нельзя забывать, что при работе с большими коллекциями, много чисто технических трудностей, которые здесь если и не снимаются полностью, то по крайней мере существенно сокращаются.

Теперь, возвращаясь к вопросам, поставленным в конце первого раздела данной главы (см. с. 42), можно попытаться ответить на них полнее, чем на с. 50. Итак:

1. Разделение элементов плана выражения и плана содержания может происходить в процессе описания рисунков в терминах некоего метаязыка. В этом случае в основе разделения лежит исследовательский опыт и интуиция. Субъективный фактор может быть существенно сокращен за счет эксплицитного перечня признаков, представленного по возможности в формализованном виде. В принципе возможно полное устранение субъективного фактора, если вместо описательного языка использовать электронно-оптический ввод изображения в память ЭВМ.

2. Воспроизводимая и контролируемая типологизация рисунков вполне осуществима как на основе стилистических, так и на основе любых других признаков, если они представлены в используемом метаязыке.

3. Математическая модель такой типологии, реализованная на ЭВМ. позволяет превратить интуитивную классификацию в строго аналитическую процедуру, воспроизводимую любое количество раз, и таким образом перейти от субъективно-оценочных дискуссий о сходстве или различии изображений к непосредственной проверке любого звена в общей цепи рассуждений.

В этот день:

  • Дни рождения
  • 1935 Родился Евгений Николаевич Черных — российский археолог, историк металла, член-корреспондент РАН.
  • Дни смерти
  • 2008 Умерла Людмила Семёновна Розанова — советский и российский археолог, кандидат исторических наук. Старший научный сотрудник Института археологии РАН, один из ведущих специалистов в области истории древнего кузнечного ремесла.

Метки

Свежие записи

Рубрики

Добавить комментарий

Ваш e-mail не будет опубликован.

Яндекс.Метрика