Признаковое описание. этап

Лабораторная работа 1

Представление исходных данных

Цель работы: обучить студентов способам представления исходных данных, включающих три матрицы: «объект – признак», «признак – признак», «объект – объект». Показать возможности и научить пользоваться методом главных компонентов, который позволяет визуализировать многомерные данные в сокращенном признаковом пространстве.

Пакет: Statistica ; версия 6.0

1.Выбрать файл данных из пакета: последовательно нажав File Open , приходим к папке Examples , в которой из папки Datasets выбираем файл данных, озаглавленный Economic Indicators (Экономические индикаторы) . Здесь можно выбрать любой другой файл или ввести свои данные. В результате этих действий получаем матрицу «объект-признак», состоящую из 40 строк (cases ) и 4 столбцов (variables ), часть которой приведена в табл.1.

Таблица 1. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», посредством следующих действий: в командной строке окна выбрать опцию Statistics , в которой указать позицию Basic Statistics / Tables (Основные статистики / таблицы) . В открывшемся окне отметить Correlation Matrices (Корреляционные матрицы) и нажать OK. Далее выбрать все переменные из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 4х4, вид которой показан в табл.2.

Таблица 2. Матрица «признак - признак»

Проанализировать полученные результаты.

3. Перейти к матрице «объект-объект» следующими операциями: в командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques (Многомерные методы) и далее - Cluster Analysis - Joining (Кластерный анализ –объединение), после чего нажать ОК. В открывшемся окне кластерного анализа, показанном на рис.1, в опции С luster (Кластер) выбрать Cases (Строки) , поскольку группируются объекты и нажать ОК.

Рис.1. Окно кластерного анализа

В открывшемся окне Joining Results (Результатов объединения) выбрать Distance Matrix (Матрицу расстояний), которая и представляет собой матрицу «объект-объект», размерностью 40х40, часть которой приведена в табл.3.

Таблица 3. Матрица «объект-объект»

Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по четырем признакам. Для этого в окне Joining Results нажать клавишу Vertical icicle plot (Вертикальная дендрограмма) , в результате чего приходим к графику, показанному на рис.2.

Рис.2. Дендрограмма объектов-стран

Полученная дендрограмма указывает порядок и уровень объединения стран, сходных между собой, а также сформировавшиеся кластеры (группы) сходных стран. В данном примере образовано 4 кластера.

1.В командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques и далее - Principal Components (Главные компоненты…). В окне главных компонентов, показанном на рис.3, выбрать все переменные для анализа (for analysis - all ), после чего нажать OK.

Рис.3. Окно главных компонентов

2. В открывшемся окне выбрать опцию Variables (Переменные) и просмотреть собственные числа, показанные в табл.4

Таблица 4. Собственные числа

Оценка потерь информации при переходе к только двум главным компонентам в данном примере составляет около 2,5%.

3. Выбрав в предыдущем окне опцию cases (строки) можно построить 2D график, нажав клавишу Plot cases factor coordinates (График строк в факторных координатах) . Результат показан на рис.4.

Рис.4. 40 стран в плоскости первых двух главных компонентов

Пакет: Statgraphics , версия 5.1

1. При запуске программы на появляющиеся последовательно два вопроса:

Какую задачу вы хотите выполнить? и Где ваши данные?

дать следующие ответы:

Analyze Existing Dates or Enter New Data (Анализ существующих данных или ввод новых данных) и – In an Existing Statgraphics Plus Data File (В существующем файле данных).

Затем выбрать для анализа файл Cardata (можно выбрать любой другой файл или ввести свои данные).

Появившаяся таблица представляет собой матрицу «объект-признак» (155 строк x 9 столбцов). Часть этой матрицы показана в табл.5.

Таблица 5. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», выбрав в командной строке Describe (Описать), а затем последовательно Numeric Data Multiple Variable Analysis (Числовые данные – многомерный анализ) . В появившемся окне многомерного анализа в качестве данных необходимо использовать только количественные переменные, например, такие, как указано на рис.5. Для этого их надо поместить в поле Data . Кроме того, для лучшего просмотра результатов желательно сократить количество строк матрицы, ограничившись, например, 20, для чего в поле Select надо набрать такую строку: first (20).

Рис.5. Окно многомерного анализа

Результаты корреляционного анализа, т.е. матрица «признак-признак» показана в табл.6.

Таблица 6. Матрица «признак-признак»

Визуализация многомерных данных

Для решения такой задачи используется метод главных компонентов.

1. В командной строке выбрать Special (Специальные) , а затем Multivariate Methods - Principal Components (Многомерные методы – главные компоненты) .

2. В окне диалога входных данных выбрать переменные для анализа, как и в первом случае и ограничиться 20-30 объектами.

3. Выделить табличные опции: Analysis Summary , Component Weights , Data Table (Итоговый анализ, компонентные веса, таблица данных) и проанализировать их. Табл.7 представляет собой итоговый анализ.

Таблица 7. Итоговый анализ

Оценить потерю информации при выборе двух или трех главных компонентов. Для рассматриваемого случая при сохранении, соответственно, двух и трех главных компонентов потеря информации составляет примерно 13% и 3% .

3. Выделить графические опции (2 D Scatterplot , 3 D Scatterplot ) . Для чего вначале при нажатии правой клавиши мыши выделить опцию Analysis Options (Анализ опций) и в появившемся окне указать выделение по числу компонентов (Extract by Number of Components ) . Полученные графики приведены на рис.6 и 7.

Построить графики и промаркировать объекты.

Рис.6. Объекты в двумерной плоскости

Рис.7. Объекты в трехмерном пространстве

Задание

1. Провести такой анализ для других данных обоих пакетов.

2. Ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.8). В табл.8 приведены средние баллы по каждому экзамену (ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп. Представить результаты в виде главных компонентов в двумерной плоскости (группы - на плоскости).

Таблица8. Средние баллы каждой группы по 4 экзаменам

Пусть имеется матрица данных . Если рассматривать строки данной матрицы какN векторовв пространствеn признаков, то естественно рассмотреть расстояние между двумя некоторыми векторами. Расстояния между всевозможными парами векторов дают матрицурасстояний типа объект - объект.

Напомним, что расстоянием между векторами в пространстве признаков называется некоторая положительная величина d , удовлетворяющая следующим трем аксиомам метрики:

Таким образом, матрица расстояний является симметричной с нулевой главной диагональю. Существуют различные метрики, но наиболее известной вообще и наиболее применяемой в обработке данных, в частности, является евклидова метрика

.

Часто используется линейная метрика вида

.

Применение линейной метрики оправдано, когда расстояние определяется как расстояние между домами в городе по кварталам, а не напрямик. Возможны и другие виды расстояний.

Часто рассматривается величина, обратная в некотором смысле расстоянию - близость. На практике часто используют функции близости вида

или ,

где определяет крутизну функции близости. Очевидно, что матрица близостей также является симметричной с единичной главной диагональю, так как.

Если рассмотреть признаки как n векторов вN -мерном пространстве объектов, то получим другое преобразование матрицы данных в матрицутипа признак - признак. Элементомтакой матрицы является значение расстояния или близости между признакамиX i иX j . Наиболее распространено представление в виде матрицы близостей между признаками, где под близостью понимается, например, корреляция соответствующих признаков.

Рис. 1.8. Диагонализация матрицы связей.

Легко заметить, что содержательные задачи на матрице данных интерпретируются на квадратных матрицахикак выделение блочно - диагональной структуры путем одновременной перегруппировки строк и столбцов. Тогда в каждом диагональном блоке группируются элементы, близкие в соответствующем пространстве и далекие от элементов других блоков. Такая задача группировки известна как задача диагонализации матрицы связей (рис. 1.8). Задача о диагонализации матрицы связей является наиболее общей для матриц связей произвольной природы. Особенно интересным является случай, когда матрица связей является корреляционной матрицей. Именно для этого случая разработаны и широко применяются на практике специальные алгоритмы, известные как алгоритмы экстремальной группировки признаков (параметров).

1.6. Измерение признаков

Мы рассмотрели представление данных в виде матрицы объект-признак. Зададимся вопросом от том, как была получена матрица данных. Очевидно, что данные были получены в ходе эксперимента. По экспериментом обычно понимают: анкетирование в социологии; измерение характеристик некоторого процесса в промышленности; измерения, проводимые на специальной установке в научном исследовании; выявление мнения экспертов по некоторой проблеме (экспертиза) и т.д.

Таким образом, данные получают в результате измерения некоторых свойств объектов. Для того, чтобы провести измерение, должны присутствовать собственно объекты с интересующими нас физическими свойствами и измерительное устройство. Заметим, что объекты обладают обычно самыми разными свойствами. В результате измерения фиксируются только некоторые свойства объекта и не учитываются многие другие. Следовательно, в матрице данных содержится заведомо неполная информация об объектах исследования.

Например, объекты могут оказаться эквивалентными по весу или длине, если значения таких характеристик присутствуют в матрице данных как значения соответствующих признаков. Те же объекты могут оказаться совершенно различными по цвету или форме. Но это различие никак не отразится на результатах обработки, если эти свойства не были представлены в матрице данных в виде значений соответствующих признаков.

Под измерительным устройством может пониматься не только некоторый прибор, но и человек, например, респондент, отвечающий на вопросы некоторой анкеты. Важно, чтобы измерительное устройство было способно изменить свое состояние в ответ на изменение состояния объекта. Очевидно, что измеряющая способность устройства зависит от того, насколько структурированы свойства объектов.

Простейшая структурированность свойств объектов позволяет судить о совпадении или различии состояний. Для представления такой довольно грубой структуры не обязательно использовать числа, так как словами можно легко обозначить факт простого совпадения состояний или их различия. Таким образом, язык можно использовать для выражения классификационных понятий, совокупность которых образует шкалу наименований или номинальную шкалу.

Во многих случаях структурированность свойств выражается естественным упорядочением различающихся состояний, например, по степени проявления некоторого свойства. В этих случаях язык можно использовать для формирования довольно грубой шкалы порядка. Например, различие может выражаться с помощью сравнительных понятий типа “горячий - теплый - холодный - ледяной”.

Очевидно, что очень важно точно описать структуру измеряемых свойств. Лингвистическое - с помощью языка - различение близких проявлений свойств и их упорядоченности часто слишком грубо, поэтому требуются более тонкие градации. Возможность более тонких измерений предоставляется при использовании действительных чисел вместо слов. Таким образом, признаки, значения которых измеряются в шкалах наименований или порядка, называются качественными. Признаки, значения которых измеряются в числовых, то есть количественных шкалах, называются количественными.

Свойства различных типов признаков и шкал изучаются в теории измерений, поэтому рассмотрим более подробно основные понятия теории измерений.

Определения

Пусть - множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.

Признак

Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак - это отображение , где - множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:

В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.

Если все признаки имеют одинаковый тип, то исходные данные называются однородными , в противном случае - разнородными .

Признаковое описание объекта

Пусть имеется набор признаков . Вектор называется признаковым описанием объекта . В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что .

Матрица объектов–признаков

Совокупность признаковых описаний всех объектов обучающей выборки , записанную в виде таблицы размером , называют матрицей объектов–признаков , матрицей информации или просто матрицей исходных данных :

Строки матрицы - это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.

Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии . Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же , в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).

Таким образом, признаки - это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества можно рассматривать как признак.

В том числе , любой алгоритм регрессии или классификации, как отображение вида , также может рассматриваться в роли признака. Хотя это наблюдение тривиально, тем не менее, оно даёт ключ к построению суперпозиций или композиций алгоритмов . Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.


Понятно, что общее число возможных карточек–примеров в данном случае равно числу всех гипотез с 4 признаками, т.е. 81. Именно столько карточек и составляет стимульный материал в методике Брунера. Каждому понятию с одним признаком соответствует 27 карточек–примеров, с двумя признаками – 9 карточек, с тремя – 3, а с четырьмя – 1.

2. Сокращение числа гипотез и информативность различных примеров. Рассмотрим теперь, каким образом будет сокращаться число возможных для испытуемых гипотез о содержании задуманного экспериментатором понятия при последовательных встречах с различными примерами. Легко видеть, что первый же положительный пример (любой!) устраняет 80 гипотез с четырьмя признаками, 104 – с тремя, 30 – с двумя и 8 – с одним. Иначе говоря, выбор испытуемого после встречи с первым положительным примером ограничивается 1 + 4 + 6 + 4 = 15 гипотезами (понятно, что их число равно числу всех возможных сочетаний признаков – табл. 2). Важно также заметить, что число гипотез, остающихся после встречи с первым положительным примером, не зависит от содержания задуманного понятия.

На втором шаге работы испытуемого он может встретиться как с положительными, так и с отрицательными примерами, причем – с положительными, совпадающими с первым примером по одному, двум или трем признакам, а с отрицательными – отличающимися от первого по одному, двум, трем или всем четырем признакам. Число гипотез, устраняемых в каждом из этих случаев, дано в таблице.

2. Число гипотез, устраняемых на втором шаге испытуемого, при встрече с различными типами примеров

Из табл. 2 видно, что на втором шаге работы испытуемого различные типы встречаемых им примеров существенно различаются по числу гипотез, которые они позволяют устранить при рациональной работе испытуемого. Наиболее «информативными» являются примеры первого типа – такой пример позволяет устранить все гипотезы, кроме одной, и, таким образом, уже на втором шаге отгадать задуманное понятие. Наименее информативными, пустыми, оказываются отрицательные примеры первого типа – они не позволяют устранять ни одной гипотезы. Легко заметить, что пустых или комплементарных положительных примеров быть уже не может.

На очередном, третьем шаге работы испытуемый может встретить уже только три типа примеров, совпадающих/различающихся по одному или двум признакам, а также пустые. Причем встреча с положительным примером, совпадающим, или с отрицательным, различающимся с первым по одному признаку, снова ведет к решению задачи. Наконец, на четвертом шаге испытуемый может встретиться или с пустым примером, или же с примером, совпадающим/отличающимся по одному признаку, и, таким образом, даже в случае наиболее неблагоприятных примеров на предыдущих шагах отгадать задуманное экспериментатором понятие. Иначе говоря, если не считать пустых примеров, рационально действующий испытуемый непременно решит задачу за четыре шага. Это и есть минимальное «логически необходимое» число непустых примеров, которое гарантирует уверенное решение задачи даже в наиболее неблагоприятном случае.

Идеальные и реальные стратегии. Из разбора шагов, ведущих к последовательному сокращению числа альтернативных гипотез, можно увидеть, что всегда существует некоторая идеальная (рациональная) стратегия, с необходимостью приводящая к решению поставленной задачи. В данном случае нетрудно было опознать стратегию фокусировки. Было бы неверным, однако, считать, что это единственная идеальная стратегия, ведущая к решению задачи, или даже что она наиболее эффективна в любом случае. Применение всякой идеальной стратегии позволяет достигать конкретных целей, которыми (в разных случаях) могут становиться: 1) максимизация получаемой информации; 2) снижение нагрузки на память и логическое членение; 3) образование данного понятия за минимальное число шагов; 4) сведение к минимуму числа ошибочных гипотез в процессе образования понятия; 5) достижение субъективной уверенности в правильном образовании понятия вне зависимости от числа примеров, с которыми встретился испытуемый, и др.

Понятие идеальных стратегий является средством анализа и описания реальной работы испытуемого в эксперименте. Оно не только задает единицу анализа процесса образования понятия, позволяя рассматривать отдельные шаги этого процесса как необходимые и несамостоятельные моменты целого, но также открывает путь для исследования разнообразных зависимостей, существующих между отдельными составляющими ситуации.

Типы реальных стратегий представляют собой качественные значения зависимой переменной в экспериментах по образованию искусственных понятий. Умение правильно идентифицировать рассмотренные стратегии является критерием освоения методики Брунера. Если цель достигнута, можно приступить к постановке и решению собственно исследовательских вопросов о факторах, определяющих выбор той или иной стратегии. Пример такого использования методики в исследовательских целях дает задание № 11 в разделе «Экспериментальный метод» исследовательского практикума.

Литература: 10; 15.

§ 14. Задание 12. Использование теории информации в модифицированном варианте методики образования искусственных понятий

Тема задания

Знакомство с модификацией методики образования искусственных понятий, предложенной О. К. Тихомировым.

Введение

Информация как количественное понятие имеет смысл только как результат осуществления какого–либо события, имеющего некоторую вероятность. Вероятностные же свойства объектов в экспериментах Дж. Брунера не анализировались и не являлись предметом исследования. Эксперименты проводились с испытуемыми однократно. Целью их было только посмотреть, какую стратегию выберет испытуемый в зависимости от варьирования некоторых условий. В таком эксперименте, естественно, нельзя было ставить вопрос о том, могут ли испытуемые прийти к оптимальной в соответствующих условиях стратегии в результате тренировки, какими факторами обусловливается изменение стратегий.

Для того чтобы ответить на эти вопросы, необходимо было изменить методику таким образом, чтобы испытуемый находился в ситуации выбора различных информативных элементов в течение длительного времени, что достигается многократным предъявлением ему ограниченного набора задач. При таких условиях оказывается возможным выяснить, чем обусловливается его поисковая деятельность, вскрыть факторы, определяющие и регулирующие ее осуществление.

Модификация методики О. К. Тихомировым. Соответствующая методика была предложена О. К. Тихомировым. Задачей исследований О. К. Тихомирова являлось изучение закономерности самостоятельного решения человеком задач с неопределенностью, т.е. задач, решение которых может заканчиваться различным результатом, и следовательно, до нахождения решения существует известная неопределенность относительно конечного результата задач на распознавание явлений.

Для этой цели было применено сопоставление хода реального процесса решения мыслительной задачи на классификацию с оптимальным способом ее решения, выводимым на основании специальных математических расчетов, в результате чего оказывается возможным получить некоторую характеристику реального процесса.

Использованная методика была во многих отношениях сходной с методикой образования искусственных понятий в варианте Выготского–Сахарова. И в том, и в другом случае задача испытуемого заключается в нахождении методом последовательных проб принципа классификации, избранного экспериментатором. Если же рассматривать группы объектов, которые в результате классификации должен был выделить испытуемый по аналогии с образованием искусственных понятий (определение каждой группы рассматривать как образование искусственного понятия), то основное отличие данной методики от методики Выготского–Сахарова заключается в том, что основание такой классификации является переменным, – центральный момент методики О. К. Тихомирова. Именно переменный характер классификации объектов позволил использовать для описания оптимальных способов решения задач методы теории вероятности и теории информации, так как это приводило к созданию статистической характеристики обследуемых объектов. С описанной модификацией методики Выготского–Сахарова студенты должны ознакомиться в настоящем задании.

Цель задания – применить использование теории информации для изучения процесса образования искусственных понятий.

Статистическая структура обследуемого поля. В методику входит весь набор стимульного материала, и указаны наборы карточек, которые рекомендуется использовать в опытах.

В качестве наборов гипотез предлагается рассмотреть те 3 набора, которые представлены ниже, в разделе «Экспериментальный материал» с 2, 4 и 14 объектами в группе.

При заданных условиях в длинном ряду предъявлений стимульных объектов (карточек) (рис. 12) каждая гипотеза может реализоваться (соответствовать предъявляемым карточкам) в среднем одинаковое число раз. Следовательно, вероятность реализации для каждой гипотезы равна: для I набора Р 1 = Р 2 = 1 / 2 ; для II набора Р 1 = Р 2 = Р 3 = Р 4 = 1 / 4 ; для III набора Р 1 = Р 2 = Р 3 = ... = Р 14 = 1 / 14 . Очевидно, что чем больше возможных исходов, предъявляемых испытуемому для распознавания гипотез, тем более неопределенен конечный исход решения. Используя теорию информации, можно выразить неопределенность опыта более точно. В теории информации показано, что неопределенность опыта – Н, или энтропия, – является функцией числа возможных исходов и вероятности их реализации:

где Р – вероятность отдельного исхода опыта. Если исходы равновероятны, то Н = lg 2 M , где М – число возможных исходов опыта.

Таким образом, условия разбираемой нами задачи будут описываться так: 1) Н= lg 2 2 = 1 дв. ед.; 2) Н= lg 2 4 = 2 дв. ед.; 3) Н– lg 2 14 = 4 дв. ед. В принятых условиях эксперимента каждый из объектов, помимо своих постоянных признаков – количества фигур, нарисованных на карточках, их цвета, формы и фона (или числа каемок), приобретает совершенно определенную статистическую характеристику частоты, с которой этот объект оказывается входящим в искомую группу при многократном решении задач. Все объекты, таким образом, распределяются на две категории: объекты, которые никогда не входят в искомую группу; объекты, которые всегда входят в группу с вероятностью больше нуля, но меньше единицы. В связи с тем что объекты помимо своих постоянных признаков в принятых условиях приобретают еще один переменный признак (вхождения или невхождения в искомую группу), каждую отдельную пробу следует рассматривать также как опыт, могущий иметь несколько различных исходов с различной вероятностью их реализации и, следовательно, характеризующийся неопределенностью:

Таким образом, процесс решения задачи выступает как процесс последовательного обследования поля, имеющего некоторую статистическую характеристику, а отдельные пробы могут относиться к объектам с различной энтропией появления проверяемого признака. Поскольку получаемая информация равна уменьшению исходной неопределенности: I = H 1 – Н 2 , результаты проверки различных объектов могут различаться по их информативности. Применим теперь тот же метод к анализу второй пробы с учетом одного осложняющего условия: если перед первой пробой для каждой программы статистическая характеристика обследуемого поля является постоянной, то перед вторым выбором распределение вероятностей получения «да» для всех объектов поля зависит от результатов предшествующего выбора, т.е. имеет место некоторое распределение условных вероятностей.

Поскольку отдельные пробы имеют различную информативность, множество различных способов решения данной задачи можно оценивать по тому, как соотносятся необходимая и избыточная информации, собираемые испытуемым, для решения этой задачи при применении различных способов.

При распознавании гипотез в одном наборе оптимальным способом поиска будет выбор любого объекта с вероятностью получения положительного ответа 0,5, дающий информацию, равную 1 дв. ед. При распознавании гипотез во втором наборе оптимальным способом поиска будет являться последовательный выбор двух объектов, дающий каждый соответственно по 1 дв. ед.

Методика

Опыт состоит из 2 частей: 1) с расположением объектов, данном в Приложении; 2) с измененным (произвольно) порядком карточек, но с тем же набором гипотез.

Полученные данные должны быть использованы для ответов на следующие вопросы:

♦ Как влияет неопределенность условий задачи на ход ее решения?

♦ Как протекает обследование поля до выявления его статистической характеристики и после?

♦ Влияет ли пространственное расположение объектов на протекание поиска?

Экспериментальный материал. В эксперименте используется набор объектов (81 шт.): карточки белого, желтого и зеленого цветов, на которых изображены геометрические фигуры разной формы – квадраты, треугольники, кружки; все они разного цвета – черные, красные или синие в разном количестве по 1, 2, 3. Полный комплект карточек (81 шт.) раскладывается перед испытуемым в таком порядке, как они представлены на вкладке (см. рис. 12). Экспериментатором заранее составляются некоторые наборы гипотез и соответствующих им объектов, составляющих определенную группу, которые будут предложены испытуемому для распознавания, т.е. для образования экспериментального понятия.

Возможные наборы гипотез:

1. 3 квадрата

2. 3 черные фигуры

1. 3 квадрата

2. 3 черные фигуры

3. Все черные фигуры

4. Все черные фигуры на белом фоне

1. Квадраты

2. Черные фигуры

3. 3 фигуры

4. Фигуры на белом фоне

5. 3 квадрата

6. 3 черные фигуры

7. Черные фигуры на белом фоне

8. Квадраты на белом фоне

9. 3 фигуры на белом фоне

10. Черные квадраты

11.3 черных квадрата

12. 3 квадрата на белом фоне

13. Черные квадраты на белом фоне

14. 3 черные фигуры на белом фоне

Ввиду трудоемкости вычислений и значительного времени, которого требует проведение данного опыта, в особенности с предъявлением для распознавания испытуемому набора, состоящего из 14 гипотез, последний приводится здесь для иллюстрации; студенты могут ограничиться предъявлением лишь первых двух наборов гипотез или не доводить поиск в случае предъявления 14 гипотез до оптимального способа.

Подготовка экспериментального материала включает также следующий этап: используя таблицу случайных чисел, экспериментатор составляет последовательность предъявления испытуемым каждой гипотезы (в случайном порядке); каждой соответствует определенный набор объектов (20 предъявлений к I и II набору и 28 предъявлений к III набору). В случае если за такое количество времени испытуемым не находится оптимальный способ решения данной задачи, экспериментатор начинает задавать гипотезы снова в том же порядке. Испытуемый не должен знать, какие гипотезы и сколько раз могут быть предъявлены ему для распознавания.

Отработка задания

Опыт проводится с одним испытуемым первоначально с набором из 2 гипотез, а затем, после перехода испытуемого в этом случае к оптимальному поиску, экспериментатор без предупреждения переходит к предъявлению для распознавания набора из 4 гипотез. Весь опыт продолжается до тех пор, пока испытуемый не начинает стабильно, в течение ряда задач (6–8), определять в каждом случае требуемую гипотезу, используя оптимальную стратегию поиска. Пробы, делаемые испытуемым в процессе опыта, регистрируются на специальном бланке, каждая клетка которого соответствует определенному объекту (карточке) из всего набора, предлагаемого испытуемому. Экспериментатор отмечает номер сделанного испытуемым выбора на бланке. Каждый такой бланк является протоколом решения испытуемым каждой отдельной задачи – распознавания задуманной группы объектов в каждом конкретном случае. На бланке–протоколе обязательно фиксируются номера задач. Образец бланка с зафиксированным ходом опыта дан в Приложении.

В каждой части опыта участвуют экспериментатор и один испытуемый. Вся группа испытуемых делится на две подгруппы – для участия в первой и второй частях опыта.

Инструкция испытуемому: «Перед вами расположен набор объектов (карточек), характеризующихся различными признаками. Экспериментатор задумывает некоторую группу этих объектов. Вам предстоит определить, что это за группа. Для этого Вы можете указать на любой объект и спросить экспериментатора, входит ли он в задуманную группу карточек. Подобные выборы объектов осуществляйте до тех пор, пока Вам не станет ясно, какую группу объектов задумал экспериментатор. Вы должны назвать эту группу. Если ответ экспериментатора окажется отрицательным, продолжайте поиск. Старайтесь при нахождении требуемой группы делать как можно меньше проб отдельных объектов».

Последнее требование инструкции повторяется часто, перед решением почти каждой задачи, пока испытуемый не перейдет к оптимальному поиску с минимальным числом проб.

Обработка результатов

Для получения данных в целях ответа на первый вопрос требуется подсчитать общее количество решенных задач, предшествующее устойчивому осуществлению испытуемыми оптимального поиска в случае предъявления первого и второго набора гипотез.

Как уже указывалось, оптимальным способом поиска для I набора гипотез будет опробование любой карточки с вероятностью получения положительного ответа 1 / 2 . Для II набора гипотез необходимо опробовать уже две карточки: первую – с вероятностью получения ответа «да» – 1 / 2 , и вторую, вероятность получения ответа «да» которой будет 1 / 2 после осуществления первого выбора.

В табл. 1 показано распределение вероятностей получения положительного ответа для I набора гипотез при расположении карточек первой части опыта.

Для получения данных по второму вопросу требуется проследить, каким образом испытуемый осуществляет поиск в каждой конкретной задаче, для чего требуется подсчитать количество информации, получаемой им при осуществлении каждого выбора.

При предъявлении I набора гипотез это делается просто, так как из приведенных выше формул ясно, какое количество информации получает испытуемый в каждом выборе. Экспериментатор должен фиксировать, на каком этапе испытуемым получена требуемая информация 1 дв. ед. и как долго продолжается после этого последующий поиск. При каждом выборе в этом случае испытуемый будет получать нулевую информацию.

При предъявлении II набора гипотез дело несколько усложняется, так как после первых выборов по–разному будет изменяться статистическая характеристика обследуемого поля, и экспериментатор должен сам научиться ее определять. Покажем на примере, как это делается. Предположим, что испытуемый первым назвал объект «3 синих круга на желтом фоне». Из табл. 2 видно, что вероятность получения положительного ответа при выборе этой карточки равна 0, и полученная информация, следовательно, тоже равна 0; статистическая характеристика поля остается неизменной.

Допустим теперь, что испытуемый назвал карточку «3 черных квадрата на белом фоне». Вероятность получения положительного ответа в этом случае равна 1 и, следовательно, полученная информация также равна 0 при неизменной статистической характеристике поля. Возьмем, наконец, случай первого выбора испытуемым карточки, характеризующейся некоторой средней вероятностью получения положительного ответа о принадлежности ее к задуманной группе, например карточки «1 черный круг на белом фоне». Из табл. 2 видно, что вероятность ее равна 0,5. Следовательно, при ее выборе испытуемый получает 1 дв. ед. информации. Экспериментатор должен рассуждать следующим образом: если ответ положительный, следовательно, искомыми могут оставаться или группа «все черные фигуры», или группа «черные фигуры на белом фоне», а группы «3 квадрата» и «3 черные фигуры» быть не могут. Если же ответ отрицательный, напротив, остаются возможными последние две гипотезы. Исходя из этих соображений составляется новая статистическая характеристика поля: при положительном ответе (табл. 3) и отрицательном ответе (табл. 4).

Цель работы: ознакомить студентов с видами представления исходных данных и обучить практическим навыкам визуализации многомерных данных в среде Statistica.

1 Основные сведения

1.1 Виды представления многомерных данных

Независимо от природы наблюдаемых явлений или процессов в большинстве ситуаций исходные данные представляются в виде матрицы (таблицы) объект-признак , где строками являются объекты, а столбцами ─ признаки. Под объектом подразумевается любой предмет изучения, например, страна, фирма, регион, студенческая группа и т. п. Признак определяет характеристики рассматриваемого объекта, например, если объектом исследования является фирма, то к числу признаков, ее характеризующих, можно отнести численность персонала, ежемесячный объем расходов и доходов, число контрагентов и другие характеристики. Каждый элемент такой матрицы Х обозначается как x ij , где - номер объекта; - номер признака. Размерность этой матрицы составляет . Матрица Х описывает m объектов в терминах n признаков, причем значения m и n обычно достаточно велики. Считается, что для получения статистически достоверных результатов число объектов должно превышать число признаков в несколько раз.

При обработке многомерных данных следует учитывать дуализм представления, так как имеются возможности визуализации как объектов в пространстве признаков, так и признаков в пространстве объектов. Кроме представления исходных данных в виде матрицы объект-признак, имеются и другие возможности представления. Например, с помощью коэффициента корреляции между признаками, который вычисляется по формуле

где ─ среднее значение произведения величин признаков x i , x k ; , ─ среднее значение признака x i , (x k); s i (s k) ─ среднеквадратичное отклонение соответствующих признаков, можно представить исходные данные в виде матрицы признак-признак.

Эта матрица R в отличие от предыдущей имеет размерность . В каждой ячейке матрицы расположены значения коэффициента корреляции между соответствующими признаками; на диагонали матрицы стоят единицы, так как корреляция признака с самим собой максимальна и равна единице. Матрица симметрична относительно своей диагонали.

Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается n признаками, то он может быть представлен как точка в n -мерном пространстве, и его сходство с другими объектами будет определяться как соответствующее расстояние. Указанное обстоятельство позволяет перейти к еще одному виду представления исходных данных, а именно, к матрице D объект-объект , представляющей собой таблицу расстояний между анализируемыми объектами. В этом случае в каждой ячейке матрицы находится величина расстояния, допустим, евклидова, рассчитываемого по формуле:

.

Здесь x ij , x kj ─ значения j -го признака, соответственно, у i -го и k -го объектов.

На диагонали матрицы находятся нули, поскольку расстояние от точки до нее самой равно нулю. Элементы матрицы симметричны относительно диагонали.

Таким образом, исходные данные могут быть представлены в виде матриц трех типов:

· матрицы объект-признак;

· матрицы признак-признак;

· матрицы объект-объект.

1.2 Визуализация многомерных данных

Любое исследование многомерных данных невозможно без использования метода главных компонентов (ГК). Сущность этого метода заключается в снижении размерности данных путем определения незначительного числа линейных комбинаций исходных признаков, которые объясняют большую часть изменчивости данных в целом. Метод ГК связан с переходом к новой системе координат, которая является системой ортонормированных линейных комбинаций. Этот метод дает возможность по n исходным признакам объектов построить такое же количество ГК, являющихся обобщенными (агрегированными) признаками. На первый взгляд, такой переход не дает никакого преимущества в представлении данных, но существует возможность сохранения информации о рассматриваемых данных даже в том случае, если сократить количество вычисленных ГК. Кроме того, при сохранении двух или трех ГК реализуется возможность визуализации многомерных объектов в сокращенном признаковом пространстве. Метод ГК обладает рядом свойств, делающим его эффективным для визуализации структуры многомерных данных. Все они касаются наименьшего искажения геометрической структуры точек (объектов) при их проектировании в пространстве меньшей размерности.

Математическая модель ГК базируется на допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. В этой связи при представлении исходных данных как раз и важна матрица признак-признак, в которой содержится вся информация о попарной связи между признаками.

Первым ГК набора первичных признаков Х=(х 1 ,х 2 ,…,х n) называется такая линейная комбинация этих признаков, которая среди прочих линейных комбинаций обладает наибольшей дисперсией. Геометрически это означает, что первый ГК ориентирован вдоль направления наибольшей вытянутости гиперэллипсоида рассеивания исследуемой совокупности данных. Второй ГК имеет наибольшую дисперсию рассеивания среди всех линейных преобразований, некоррелированных с первым ГК, и представляет собой проекцию на направление наибольшей вытянутости наблюдений в гиперплоскости, перпендикулярной первому ГК. Вообще, j–м ГК системы исходных признаков Х=(х 1 ,х 2 ,…,х n) называется такая линейная комбинация этих признаков, которая некоррелирована с (j-1) предыдущими ГК и среди всех прочих некоррелированных с предыдущими (j-1) ГК обладает наибольшей дисперсией. Отсюда следует, что ГК занумерованы в порядке убывания их дисперсий, т.е. , а это дает основу для принятия решения о том, сколько последних ГК можно без ущерба изъять из рассмотрения.

Решение задачи методом ГК сводится к поэтапному преобразованию матрицы исходных данных. Основные шаги метода показаны на схеме, приведенной на рис.1.

Рис. 1. Вычислительная схема метода главных компонентов

Прокомментируем этапы вычислений. В качестве исходных данных обычно выбирается матрица объект-признак Х . Поскольку характеристиками объектов могут служить признаки различной природы, то данные необходимо стандартизировать, т. е. провести центрирование (вычитание среднего значения) и нормирование (деление на среднеквадратичное значение) данных.

На следующем шаге вычисляется матрица корреляций R между признаками, т. е. осуществляется переход к матрице признак-признак. Диагональные элементы этой матрицы равны единице, а сама матрица симметрична относительно этой диагонали, так как r ij =r ji .

Далее определяется матрица собственных векторов В , которая, также, как и предыдущая, является квадратной и состоит из n строк и n столбцов. Компоненты каждого собственного вектора представлены в виде вектора-столбца, сумма квадратов составляющих которого вследствие ортогональности равна единице.

На следующем этапе проводится расчет матрицы собственных чисел Λ , которая в отличие от предыдущих матриц является диагональной, т. е. здесь только на диагонали матрицы находятся собственные числа: все прочие элементы матрицы равны нулю. Размерность этой матрицы, как и двух предыдущих, составляет . Каждое значение λ j определяет дисперсию каждого ГК. Суммарное значение равняется сумме дисперсий исходных признаков. При условии стандартизации исходных данных

На последнем шаге вычисляются ГК:

· с помощью матрицы Λ находятся два или три наибольших собственных числа (такой выбор обусловлен желанием визуализировать многомерные объекты в двумерной плоскости или трехмерном пространстве);

· по матрице В определяются собственные вектора (СВ), которые соответствуют выбранным собственным числам;

· найденные таким образом собственные вектора умножаются последовательно на строки исходной матрицы, формируя значения ГК для каждого объекта.

Например, при выборе только первых двух наибольших собственных чисел определяем соответствующие им составляющие СВ (два столбца матрицы В ), которые перемножаем на строки матрицы Х.

Перемножение первого столбца матрицы В на первую строку матрицы Х даст значение первого ГК для первого объекта, умножение того же столбца на вторую строку определяет значение первого ГК для второго объекта, т.е.

Y 1 = b 11 x 11 +b 21 x 12 + . . . + b n1 x 1n ,

где b 11 ,b 21 ,…, b n 1 - компоненты первого СВ; x 11 ,x 12 ,…, x 1 n - первая строка матрицы данных объект-признак.

После выполнения таких же операций со вторым выбранным вектором, рассчитанным по формуле

Y 2 = b 12 x 21 +b 22 x 22 + . . . + b n 2 x 2 n ,

получаем возможность построить все объекты в плоскости первых двух ГК, где их взаимное расположение позволяет сделать предварительные выводы о сходстве (различии) объектов.

2 Работа на компьютере

Выполнение данной работы производится с программным пакетом Statistica; версия 6.1.

2.1 Представление многомерных данных

1. Из папки Examples - Datasets открываем файл данных, озаглавленный Activities , в котором приведены различные характеристики образа жизни для 28 групп людей. В качестве активных переменных использовано семь видов социальной активности: work (работа), transport (транспорт), children (дети), household (домашний быт), shopping (покупки), personal care (личное время), meal (еда). Показателем является общее время, затраченное на данный вид деятельности представителями группы в часах. В качестве вспомогательных признаков выбраны: sleep (сон), TV (телевизор), leisure (досуг). В файл данных введена дополнительная переменная gender (пол), принимающая значения male (мужчины) и female (женщины). Для присвоения меток точкам на графиках добавлен группирующий признак geo. region (регион). Часть таблицы исходных данных приведена на рис.2.

Рис.2. Матрица объект-признак

2. Перейти к матрице признак – признак посредством следующих действий: в командной строке окна выбрать опцию Анализ , в которой указать позицию Основные статистики и таблицы . В открывшемся окне отметить Парные и частные корреляции и нажать OK. Далее выбрать первые семь переменных из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 7х7, вид которой показан на рис.3.

Рис.3. Матрица признак - признак

При обработке данных в этом случае строки с пропущенными данными исключаются из рассмотрения, поэтому из исходных 28 строк остается 23.

3. Перейти к матрице объект-объект следующими операциями: в командной строке окна выбрать опцию Анализ , в которой указать позицию и далее - Кластерный анализ - Иерархическая кластеризация , после чего нажать ОК. В открывшемся окне кластерного анализа на вкладке Дополнительно, в опции Объекты выбрать Наблюдения (строки) (рис.4), нажать ОК, далее отметить в окне те же 7 переменных и нажать ОК.

Рис.4. Окно кластерного анализа

В открывшемся окне выбрать Матрицу расстояний , которая и представляет собой матрицу «объект-объект», размерностью 23х23. Часть этой таблицы приведена на рис.5.

Рис.5. Матрица объект-объект

Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по семи признакам. Для этого в окне Результаты иерархической кластеризации нажать клавишу Вертикальная дендрограмма , в результате чего приходим к графику, показанному на рис.6.

Полученная дендрограмма указывает порядок и уровень объединения объектов, сходных между собой, а также сформировавшиеся кластеры (группы) сходных объектов. В данном примере образовано 4 кластера.

Рис.6. Дендрограмма объектов

2.2 Метод главных компонентов

1. Из папки Examples - Datasets открываем тот же самый файл данных Activities .

2. В командной строке окна выбрать опцию Анализ , в которой указать позицию Многомерный разведочный анализ и далее - Анализ главных компонент и классификация . В стартовой панели модуля на вкладке Дополнительно нажать кнопку Переменные . В открывшемся окне Выберите переменные… в поле Переменные анализа выделить первые 7 переменных; в поле Вспомогательные - переменные sleep - leisure; в поле С основными наблюдениями - gender ; в поле Группирующая - geo. region. После этих процедур окно Выберите переменные … принимает вид, показанный на рис. 7.

Рис.7. Окно выбора переменных

После нажатия ОК стартовая панель имеет вид, показанный на рис.8.

Рис.8. Стартовая панель после выбора переменных

Кроме того, на стартовой панели в поле Код для основных наблюдений указать значение переменной female. Здесь же в рамке Анализ основан на … выбрать опцию корреляцияхs , так как средние значения и дисперсии каждой переменной могут значительно различаться между собой. В рамке Удаление пропущенных данных указать опцию Замена средним , а в рамке Оценка дисперсии - опцию SS/ N-1 , поскольку данных не очень много, и выбор другой опции может привести к смещенным оценкам дисперсии. После выбора этих опций нажать ОК.

3. В появившемся окне результатов анализа в информационной части указано количество основных и вспомогательных переменных и наблюдений (рис. 9).

Рис.9. Окно результатов анализа

После нажатия кнопки График каменистой осыпи на вкладке Переменные программа построит график изменения собственных чисел (СЧ) корреляционной матрицы, показанный на рис.10.

Рис.10. График изменения собственных чисел

Сами СЧ можно увидеть после нажатия кнопки Собственные значения в появившейся таблице (рис.11).

Рис.11. Собственные числа

Анализ графика и таблицы позволяет выбрать число выделяемых ГК. Например, по графику можно определить СЧ, начиная с которого график теряет свою кривизну, и убывание СЧ максимально замедляется. Из графика видно, что такими СЧ являются 2 или 3, поэтому число выделяемых ГК может быть равно 2 или 3. Выбрав число, равное 2, введем его в поле Число факторов (рис.8), после чего Качество представления изменит свое значение со 100% на 81% (рис.12).

Рис.12. Качество представления при двух факторах

Тот же самый вывод следует из таблицы рис.10, где в последнем столбце приведены значения накопленной суммы СЧ: видно, что при двух оставляемых в анализе СЧ эта сумма составляет примерно 81%. Следовательно, потеря информативности при переходе от 7 СЧ к 2 СЧ составляет около 19%, но зато появляется возможность визуализации многомерных исходных данных.

4. Нажать кнопку Факторные координаты для получения таблицы координат исходных переменных в пространстве новых выделенных факторов (ГК) (рис.13).

Рис.13. Координаты исходных переменных в пространстве главных компонентов (факторов)

Эта таблица дает возможность интерпретации ГК в терминах корреляции: большее абсолютное значение координат (факторной нагрузки) исходного признака с каким-либо ГК (фактором) говорит о том, что переменная сильнее связана с этим фактором. Другими словами, чем больше величина координаты признака, тем лучше переменные показывают структуру, представленную этим фактором.

Рис.14. Переменные (признаки) в плоскости первых двух факторов (главных компонентов)

Как видно из рис.14, все переменные изображены в виде точек на единичном круге, так как корреляции (координаты точек) наблюдений с факторными осями принимают значения (по модулю) из интервала .

Горизонтальная ось соответствует фактору 1, вертикальная - фактору 2. Координаты точек - в таблице рис.12. Кроме того, этот рисунок дает возможность оценить корреляцию между признаками: чем меньше угол между радиус-векторами определенных признаков, тем сильнее корреляция между ними. Например, переменные work и transport находятся достаточно близко между собой, что свидетельствует об их сильной корреляции. Этот же вывод следует и из матрицы признак-признак.

5. На вкладке Наблюдения нажать кнопку 2М графики факторных наблюдений. Появится график (рис.15), на котором изображены все наблюдения (строки), использованные при расчете. При этом основные наблюдения (female) указаны кружочками синего цвета, а вспомогательные (male ) отмаркированы квадратиками красного цвета. Из графика видно, что основные и вспомогательные наблюдения сгруппированы в разных областях плоскости, т.е. они объединены в разные кластеры.

Рис.15. Наблюдения (строки) в плоскости первых двух факторов (главных компонентов)

3. Задание

В пакет Statistica ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.). Ввод данных осуществляется через Файл -Создать , где в появившемся окне указать число переменных, равное 4, а число строк - 9. В таблице приведены средние баллы экзаменов по каждой дисциплине (ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп.

Таблица Средние баллы каждой группы по 4 дисциплинам

Номер группы Отечественная история Экономическая теория Математический анализ Линейная алгебра
4,59 4,77 4,82 4,59
4,68 4,73 4,27 4,38
4,52 4,29 3,95 3,95
4,64 4,5 4,45 4,41
4,32 4,09 4,14 4,23
4,36 4,27 4,05 4,23
4,05 4,05 3,62 4,0
3,9 3,95 3,63 3,86
3,76 3,33 3,48

Вычислить:

1. Корреляцию между дисциплинами (построить матрицу признак-признак).

2. Расстояние между группами (построить матрицу группа-группа).

3. Собственные числа и главные компоненты (ГК).

4. Качество представления при двух ГК.

Построить графики:

1. Дендрограмму студенческих групп.

2. Дисциплины в плоскости ГК.

3. Группы в плоскости ГК.

4. Дисциплины в плоскости ГК.

Вопросы к защите работы

1. Как рассчитываются матрицы «объект-объект», «признак-признак»?

2. Что определяет собой дендрограмма?

3. Какая из матриц представления данных используется при кластерном анализе?

4. Как вычисляются ГК?

5. Какова размерность ГК?

6. Как выбирается число ГК?

7. Можно ли оценить потери информации при переходе к ГК?

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-19



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: