;

Вход в систему

Подписка

Классические методы статистической обработки информации - дискриминантный, корреляционный, факторный и регрессионный анализы и их современные модификации.

Методы статистической обработки экологической информации: дискриминантный, корреляционный и регрессионный анализ:
Учебное пособие
Автор(ы): Буляница А.Л., Курочкин В.Е., Кноп И.С.

1. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

группа методов многомерной статистики, предназначенных для 1) описания различий между классами и 2) классификации объектов, не входивших в первоначальную выборку обучающую (см.). Переменные (см.), используемые в А.Д., называются дискриминантными.
Для решения первой задачи строится пространство канонических дискриминантных функций, которые позволяют с максимальной эффективностью "разделить" классы. Для того чтобы разделить k классов, требуется не более (k - 1) канонических дискриминантных функций (например, для разделения двух классов достаточно одной функции, для разделения трех классов - двух функций и т.д.). Канонические дискриминантные функции можно рассматривать как аналог регрессии, построенной для целей классификации; дискриминантные (исходные) переменные являются в них переменными независимыми (см.). Для измерения абсолютного и относительного вклада дискриминантных переменных в разделение классов используются нестандартизированные и стандартизированные коэффициенты канонических функций.
В пространстве канонических дискриминантных функций можно также решать задачу классификации объектов, не принадлежавших к первоначальной выборке. Для этого вычисляются расстояния от каждого "нового" объекта до геометрического "центра" каждого класса. Могут учитываться априорные вероятности принадлежности к классам, а также цена ошибок классификации.
Альтернативным подходом к классификации объектов является вычисление классифицирующих функций Фишера - по одной для каждого класса. Эти функции также можно рассматривать как аналог регрессионных уравнений с "независимыми" дискриминантными переменными. Объект относится к тому классу, для которого вычисленное значение классифицирующей функции является максимальным.
Первоначальная выборка, для каждого объекта из которой априорно известна классовая принадлежность и на основе которой строятся как классифицирующие, так и канонические дискриминантные функции, называется обучающей. По ней же оценивается эффективность решающих процедур. Для этого строится специальная классификационная матрица, которая показывает, к какому классу объект принадлежал априорно и в какой класс был классифицирован с помощью канонических дискриминантных или классифицирующих функций.
Метод Д. А. предъявляет к данным довольно строгие требования. В модели должно быть не менее двух классов, в каждом классе - не менее двух объектов из обучающей выборки, число дискриминантных переменных не должно превосходить объем обучающей выборки за вычетом двух объектов. Дискриминантные переменные должны быть количественными и линейно независимыми (не должны коррелировать друг с другом). Выполнение этих требований проконтролировать достаточно легко. Для каждого класса требуется также приблизительное равенство матриц ковариации и многомерная нормальность распределения. Нарушение последнего требования может привести к ошибкам классификации в "пограничных" зонах, где вероятности принадлежности объекта к двум или нескольким классам приблизительно равны.

2. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую [2, 3, 5].

При функциональной зависимости двух величин значению одной из них обязательно соответствует одно или несколько точно определенных значений другой величины. Функциональная связь двух факторов возможна лишь при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. Функциональная связь одной величины с множеством других возможна, если эта величина зависит только от этого множества факторов. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями. Их применение допустимо тогда, когда соответствующая величина в основном зависит от соответствующих факторов.

При исследовании АСОИУ многие параметры следует считать случайными, что исключает проявление однозначного соответствия значений. Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Однако на практике такое рассмотрение функциональной связи применения не нашло.

Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Если же у взаимосвязанных величин вариацию имеет только одна переменная, а другая является детерминированной, то такую связь называют не корреляционной, а регрессионной. Например, при анализе скорости обмена с жесткими дисками можно оценивать регрессию этой характеристики на определенные модели, но не следует говорить о корреляции между моделью и скоростью.

При исследовании зависимости между одной величиной и такими характеристиками другой, как, например, моменты старших порядков (а не среднее значение), то эта связь будет называться статистической, а не корреляционной.

3. ФАКТОРНЫЙ АНАЛИЗ

С помощью факторного анализа возможно оценить взаимное влияние различных признаков друг на друга. Процедура факторного анализа связана с анализом собственных чисел и исследование структуры собственных векторов корреляционной матрицы. В принципе решение полной проблемы собственных чисел хорошо известно. В нашем случае матрица симметрична и собственные числа будут вещественны. Методы поиска собственных чисел различны (например, сингулярное разложение Лоусона и Хенсона или процедура, описанная в работе Агно и т.д.). Основная вычислительная трудность может быть связана с плохой обусловленностью корреляционной матрицы в случае, когда размерность матрицы велика (много исследуемых признаков) и имеются значительные корреляции между некоторыми из них. Очевидно, что в противном случае малых корреляций матрица будет близка к единичной, собственные числа близки к единице и, следовательно, степень обусловленности также близка к единице.

4. РЕГРЕССИОННЫЙ АНАЛИЗ

Статистический метод исследования зависимости между зависимой переменной Y и одной или несколькими независимыми переменными X1,X2,...,Xp. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция), а не причинно-следственные отношения.
5. Детерминационный анализ(ДА) , созданный первоначально для проведения социологических исследований , в применении к экологическим данным позволяет устанавливать наличие зависимостей между различными компонентами экосистем (в том числе, между живым и косным), включать в анализ как количественные, так и качественные переменные, учитывать совокупное действие многих факторов, ранжировать установленные зависимости по величине собственных критериев истинности, проводить контекстный анализ, т.е. разбивать исследуемый массив данных на части (по территориальному, временному или любому иному признаку) и работать с каждой из частей в отдельности. Перечисленные достоинства метода ДА позволяют относиться к нему, как к весьма привлекательному инструменту для реализации описанных выше разделов экологического контроля. Особенности метода ДА, позволяющие считать его незаменимым при решении различных экологических задач, составляют предмет настоящей статьи.
6.Эмпирико-статистические модели объединяют в себе практически все биометрические методы первичной обработки экспериментальной информации. Основная цель построения этих моделей состоит в следующем:

* упорядочение или агрегирование экологической информации;
* поиск, количественная оценка и содержательная интерпретация причинно-следственных отношений между переменными экосистемы;
* оценка достоверности и продуктивности различных гипотез о взаимном влиянии наблюдаемых явлений и воздействующих факторов;
* идентификация параметров расчетных уравнений различного назначения.

7. КОГНИТИВНЫЕ ПОДХОДЫ
Для выявления базисных социально-политических, экономических, экологических проблем и генерирования рекомендаций по методам управления сложными системами необходимо разработать компьютерные когнитивные модели для качественного моделирования ситуации. Качественные модели сложных и очень сложных систем достаточно эффективно строятся на основе математического аппарата знаковых и взвешенных графов, которые позволяют формализовать взаимодействие основных положительных и отрицательных обратных связей, существующих между процессами, определяющими функционирование и развитие сложной социально-политической, экономической или экологической системы. При построении таких моделей может быть использована неполная, нечеткая и даже противоречивая информация.
Когнитивные модели на основе аппарата знаковых и взвешенных графов успешно применяются в США компанией Rand Corporation для анализа названных задач. В Институте проблем управления РАН (Москва) такие модели получили дальнейшее развитие и применялись для анализа влияния теневой экономики на экономику России, прогноза развития событий в чрезвычайных ситуациях; выживания предприятий с различными организационно-правовыми формами в условиях кризисной экономики (инфляции, скачков цен на ресурсы и энергоносители и др.), а в последнее время для разработки стратегий развития регионов и управления развитием потребительского рынка г. Москвы.
Таким образом, удобным инструментом исследования слабоструктурированных, плохо формализуемых задач является когнитивная структуризация, которая способствует углублению понимания проблем, выявлению противоречий, качественному их анализу. Цель когнитивной структуризации состоит в формировании и уточнении гипотезы о функционировании исследуемого объекта. Чтобы понять и проанализировать поведение сложной системы с помощью когнитивного подхода, строится структурная схема причинно-следственных связей. При этом элементы системы А и В , изображаемые на схеме в виде отдельных вершин графа, соединяют ориентированной дугой, если элемент А связан с элементом В причинно-следственной связью: А—>В, где А - причина, В -следствие. Рассматриваемые причинно-следственные связи разделяют на положительные и отрицательные. Связь А —> В называется положительной, если увеличение А ведет к увеличению (усилению) В и уменьшение А ведет к уменьшению (ослаблению) В при прочих равных условиях. Отрицательный знак (-) над дугой А —> В означает, что связь отрицательна, т.е. при прочих равных условиях увеличение А приводит к уменьшению (ослаблению) В. Подобные схемы причинно-следственных связей широко используются для анализа сложных систем в экономике, социологии, в политике, в технике. Такие схемы, интерпретирующие мнение, взгляды лица, принимающего решение, называются когнитивной картой. На математическом языке когнитивная карта называется знаковым (взвешенным) ориентированным графом (орграфом). Для определения изменений параметров вершин, с учетом влияния контуров обратной связи пользуются развитием импульсного процесса в знаковых и взвешенных орграфах, который устанавливает, как отклонения одной или нескольких переменных распространяются за некоторое время по структуре графа. Приобретая опыт в анализе знаковых графов, можно избавиться от целого ряда типичных ошибок, свойственных несистемному мышлению. Нередко исследователь ошибочно предполагает, что каждое событие имеет только одну причину, не замечая важных обратных связей, как положительных, так и отрицательных.
8. Хемометрический подход к обработке данных

rpeviewPicture: