Факторный анализ
factoran
вычисляет максимальную оценку правдоподобия (MLE) матрицы загрузок в модели факторного анализа
где x - вектор наблюдаемых переменных, μ - постоянный вектор средств, Λ - константа d
-by- m
матрица факторных загрузок, f является вектором независимых, стандартизированных общих факторов, а e является вектором независимых конкретных факторов. x, μ и e каждый имеет длину d
. f имеет длину m
.
Кроме того, модель факторного анализа может быть задана как
где является d
-by- d
диагональная матрица конкретных отклонений.
Для использования factoran
и его отношение к pca
, см. «Выполнение анализа фактора на экзаменационных оценках».
___ = factoran(
изменяет подгонку модели и выходы, используя один или несколько аргументы пары "имя-значение" для любых выходных аргументов в предыдущих синтаксисах. Например, можно задать, что X
,m
,Name,Value
)X
данные являются ковариационной матрицей.
Создайте некоторые псевдослучайные необработанные данные.
rng default % For reproducibility n = 100; X1 = 5 + 3*rand(n,1); % Factor 1 X2 = 20 - 5*rand(n,1); % Factor 2
Создайте шесть векторов данных из необработанных данных и добавьте случайный шум.
Y1 = 2*X1 + 3*X2 + randn(n,1); Y2 = 4*X1 + X2 + 2*randn(n,1); Y3 = X1 - X2 + 3*randn(n,1); Y4 = -2*X1 + 4*X2 + 4*randn(n,1); Y5 = 3*(X1 + X2) + 5*randn(n,1); Y6 = X1 - X2/2 + 6*randn(n,1);
Создайте матрицу данных из векторов данных.
X = [Y1,Y2,Y3,Y4,Y5,Y6];
Извлеките два фактора из матрицы зашумленных данных X
использование factoran
. Отобразите выходы.
m = 2; [lambda,psi,T,stats,F] = factoran(X,m); disp(lambda)
0.8666 0.4828 0.8688 -0.0998 -0.0131 -0.5412 0.2150 0.8458 0.7040 0.2678 -0.0806 -0.2883
disp(psi)
0.0159 0.2352 0.7070 0.2385 0.4327 0.9104
disp(T)
0.8728 0.4880 0.4880 -0.8728
disp(stats)
loglike: -0.0531 dfe: 4 chisq: 5.0335 p: 0.2839
disp(F(1:10,:))
1.8845 -0.6568 -0.1714 -0.8113 -1.0534 2.0743 1.0390 -1.1784 0.4309 0.9907 -1.1823 0.6570 -0.2129 1.1898 -0.0844 -0.7421 0.5854 -1.1379 0.8279 -1.9624
Просмотрите матрицу корреляции данных.
corrX = corr(X)
corrX = 6×6
1.0000 0.7047 -0.2710 0.5947 0.7391 -0.2126
0.7047 1.0000 0.0203 0.1032 0.5876 0.0289
-0.2710 0.0203 1.0000 -0.4793 -0.1495 0.1450
0.5947 0.1032 -0.4793 1.0000 0.3752 -0.2134
0.7391 0.5876 -0.1495 0.3752 1.0000 -0.2030
-0.2126 0.0289 0.1450 -0.2134 -0.2030 1.0000
Сравнение corrX
к соответствующим значениям, возвращаемым factoran
, lambda*lambda' + diag(psi)
.
C0 = lambda*lambda' + diag(psi)
C0 = 6×6
1.0000 0.7047 -0.2726 0.5946 0.7394 -0.2091
0.7047 1.0000 0.0426 0.1023 0.5849 -0.0413
-0.2726 0.0426 1.0000 -0.4605 -0.1542 0.1571
0.5946 0.1023 -0.4605 1.0000 0.3779 -0.2611
0.7394 0.5849 -0.1542 0.3779 1.0000 -0.1340
-0.2091 -0.0413 0.1571 -0.2611 -0.1340 1.0000
factoran
получает lambda
и psi
которые тесно соответствуют корреляционной матрице исходных данных.
Просмотр результатов без использования вращения.
[lambda,psi,T,stats,F] = factoran(X,m,'Rotate','none'); disp(lambda)
0.9920 0.0015 0.7096 0.5111 -0.2755 0.4659 0.6004 -0.6333 0.7452 0.1098 -0.2111 0.2123
disp(psi)
0.0159 0.2352 0.7070 0.2385 0.4327 0.9104
disp(T)
1 0 0 1
disp(stats)
loglike: -0.0531 dfe: 4 chisq: 5.0335 p: 0.2839
disp(F(1:10,:))
1.3243 1.4929 -0.5456 0.6245 0.0928 -2.3246 0.3318 1.5356 0.8596 -0.6544 -0.7114 -1.1504 0.3947 -1.1424 -0.4358 0.6065 -0.0444 1.2789 -0.2350 2.1169
Вычислите коэффициенты, используя только ковариация матрицу X
.
X2 = cov(X); [lambda2,psi2,T2,stats2] = factoran(X2,m,'Xtype','covariance','Nobs',n)
lambda2 = 6×2
0.8666 0.4828
0.8688 -0.0998
-0.0131 -0.5412
0.2150 0.8458
0.7040 0.2678
-0.0806 -0.2883
psi2 = 6×1
0.0159
0.2352
0.7070
0.2385
0.4327
0.9104
T2 = 2×2
0.8728 0.4880
0.4880 -0.8728
stats2 = struct with fields:
loglike: -0.0531
dfe: 4
chisq: 5.0335
p: 0.2839
Результаты те же, что и с необработанными данными, кроме factoran
невозможно вычислить матрицу счетов фактора F
для ковариационных данных.
Загрузите выборочные данные.
load carbig
Задайте матрицу переменных.
X = [Acceleration Displacement Horsepower MPG Weight]; X = X(all(~isnan(X),2),:);
Оцените загрузки с помощью минимального среднего предсказания квадратичной невязки для факторного анализа с двумя общими факторами.
[Lambda,Psi,T,stats,F] = factoran(X,2,'Scores','regression'); inv(T'*T); % Estimated correlation matrix of F, == eye(2) Lambda*Lambda' + diag(Psi); % Estimated correlation matrix Lambda*inv(T); % Unrotate the loadings F*T'; % Unrotate the factor scores
Создайте биплот двух факторов.
biplot(Lambda,'LineWidth',2,'MarkerSize',20)
Оцените загрузки с помощью ковариационной (или корреляционной) матрицы.
[Lambda,Psi,T] = factoran(cov(X),2,'Xtype','covariance')
Lambda = 5×2
-0.2432 -0.8500
0.8773 0.3871
0.7618 0.5930
-0.7978 -0.2786
0.9692 0.2129
Psi = 5×1
0.2184
0.0804
0.0680
0.2859
0.0152
T = 2×2
0.9476 0.3195
0.3195 -0.9476
(Можно вместо этого использовать corrcoef(X)
вместо cov(X)
для создания данных для factoran
.) Хотя оценки те же самые, использование ковариационной матрицы, а не необработанных данных препятствует вам запрашивать счета или уровень значимости.
Используйте вращение промакса.
[Lambda,Psi,T,stats,F] = factoran(X,2,'Rotate','promax','power',4); inv(T'*T) % Estimated correlation of F, no longer eye(2)
ans = 2×2
1.0000 -0.6391
-0.6391 1.0000
Lambda*inv(T'*T)*Lambda'+diag(Psi) % Estimated correlation of X
ans = 5×5
1.0000 -0.5424 -0.6893 0.4309 -0.4167
-0.5424 1.0000 0.8979 -0.8078 0.9328
-0.6893 0.8979 1.0000 -0.7730 0.8647
0.4309 -0.8078 -0.7730 1.0000 -0.8326
-0.4167 0.9328 0.8647 -0.8326 1.0000
Постройте график неограниченных переменных с наложенными наклонными осями.
invT = inv(T); Lambda0 = Lambda*invT; figure() line([-invT(1,1) invT(1,1) NaN -invT(2,1) invT(2,1)], ... [-invT(1,2) invT(1,2) NaN -invT(2,2) invT(2,2)], ... 'Color','r','LineWidth',2) grid on hold on biplot(Lambda0,'LineWidth',2,'MarkerSize',20) xlabel('Loadings for unrotated Factor 1') ylabel('Loadings for unrotated Factor 2')
Постройте график повернутых переменных относительно наклонных осей.
figure() biplot(Lambda,'LineWidth',2,'MarkerSize',20)
X
- ДанныеДанные, заданные как n
-by- d
матрица, где каждая строка является наблюдением d
переменные.
Типы данных: double
m
- Количество общих факторовКоличество общих факторов, заданное в виде положительного целого числа.
Пример: 3
Типы данных: double
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
lambda = factoran(X,m,'Start',10,'Scores','Thomson')
задает использование начальной точки для определенных отклонений 10 и метода Томсона для предсказания счетов фактора.'Xtype'
- Тип входных данных'data'
(по умолчанию) | 'covariance'
Тип входных данных X
, заданная как разделенная разделенными запятой парами, состоящая из 'Xtype'
и одно из следующих:
'data'
— X
является необработанными данными.
'covariance'
— X
является положительно определенной ковариационной или корреляционной матрицей.
Пример: 'Xtype','covariance'
Типы данных: char
| string
'Scores'
- Метод прогнозирования счетов фактора'wls'
или эквивалентное 'Bartlett'
(по умолчанию) | 'regression'
или эквивалентное 'Thomson'
Метод предсказания счетов фактора, заданный как разделенная разделенными запятой парами, состоящая из 'Scores'
и одно из следующих:
'wls'
или эквивалентное 'Bartlett'
- Взвешенная оценка методом обработки методом наименьших квадратов F
как фиксированный
'regression'
или эквивалентное 'Thomson'
- Минимальное среднее квадратичное предсказание ошибки, которое эквивалентно регрессии хребта
Пример: 'Scores','regression'
Типы данных: char
| string
'Start'
- Начальная точка для конкретных отклонений psi
в оптимизации максимальных правдоподобий'Rsquared'
(по умолчанию) | 'random'
| положительное целое число | матрице с d
строкиНачальная точка для определенных отклонений psi
в оптимизации максимальной вероятности, заданной как разделенная разделенными запятой парами, состоящая из 'Start'
и одно из следующих:
'Rsquared'
- Выбирает стартовый вектор в качестве масштабного фактора diag(inv(corrcoef(X)))
(по умолчанию). Для примеров см. Jöreskog [2].
'random'
- Выбирает d
равномерно распределенные значения на интервале [0,1].
Положительное целое число - Выполняет заданное количество максимальных правдоподобий, каждое инициализировано так же, как 'random'
. factoran
возвращает подгонку с наивысшей вероятностью.
Матрица с d
Строки - Выполняют по одной максимальной подгонке правдоподобия для каждого столбца указанной матрицы. factoran
инициализирует i
th-ая оптимизация со значениями из i
th столбца.
Пример: 'Start',5
Типы данных: double
| char
| string
'Rotate'
- Метод, используемый для вращения факторных загрузок и счетов'varimax'
(по умолчанию) | 'none'
| 'quartimax'
| 'equamax'
| 'parsimax'
| 'orthomax'
| 'promax'
| 'procrustes'
| 'pattern'
| указатель на функциюМетод, используемый для поворота загрузок и счетов, заданный как разделенная разделенными запятой парами, состоящая из 'Rotate'
и одно из значений в следующей таблице. Вы можете управлять поворотом, задавая дополнительные аргументы пары "имя-значение" rotatefactors
функция, как описано в таблице. Для получения дополнительной информации см. rotatefactors
.
Значение | Описание |
---|---|
| Вращение не выполняется |
| Особый случай |
| Ортогональное вращение, которое максимизирует критерий, основанный на отклонении загрузок. Используйте |
| Частный случай вращения ортомакса. Используйте |
| Выполняет либо наклонное вращение (по умолчанию), либо ортогональное вращение, чтобы наилучшим образом соответствовать заданной матрице шаблона. Используйте |
| Выполняет либо наклонное вращение (по умолчанию), либо ортогональное вращение, чтобы наилучшим образом соответствовать заданной целевой матрице в смысле наименьших квадратов. Используйте |
| Выполняет вращение наклонных проволочек к целевой матрице, определяемой |
| Особый случай |
| Особый случай |
указатель на функцию | Указатель на функцию вращения вида [B,T] = myrotation(A,...) где Используйте |
Пример: [lambda,psi,T] = factoran(X,m,'Rotate','promax','power',5,'maxit',100)
Типы данных: char
| string
| function_handle
'Delta'
- нижняя граница для psi
во время оптимизации максимальных правдоподобий0.005
(по умолчанию) | скаляром между 0 и 1Нижняя граница для psi
аргумент во время оптимизации максимальной вероятности, заданный как разделенная разделенными запятой парами, состоящая из 'Delta'
и скалярное значение от 0 до 1 (0 < Delta
< 1).
Пример: 0.02
Типы данных: double
'OptimOpts'
- Опции для максимальной оптимизации правдоподобия[]
(по умолчанию) | структуру, созданную statset
Опции максимальной оптимизации правдоподобия, заданные как разделенная разделенными запятой парами, состоящая из 'OptimOpts'
и структуру, созданную statset
. Можно ввести statset('factoran')
для списка опций, которые также описаны в следующей таблице.
Имя поля (statset аргумент) | Значение | Значение {по умолчанию} |
---|---|---|
'Display' | Количество информации, отображаемой алгоритмом |
|
MaxFunEvals | Максимально допустимое количество вычислений целевой функции | Положительное целое число, {400} |
MaxIter | Максимально допустимое количество итераций | Положительное целое число, {100} |
TolFun | Допуск завершения для значения целевой функции. Решатель останавливается, когда последующие значения функции меньше | Положительная скалярная величина, {1e-8} |
TolX | Допуск завершения для параметров. Решатель останавливается, когда последующие значения параметров меньше | Положительная скалярная величина, {1e-8} |
Пример: statset('Display','iter')
Типы данных: struct
'Nobs'
- Количество наблюдений, используемых для оценки X
Количество наблюдений, используемых для оценки X
, заданная как разделенная разделенными запятой парами, состоящая из 'Nobs'
и положительное целое число. Nobs
применяется только тогда, когда Xtype
является 'covariance'
. Определение 'Nobs'
позволяет вам получить stats
структуры output chisq
и p
.
Пример: 50
Типы данных: double
lambda
- Факторные загрузкиФакторные загрузки, возвращенные как d
-by- m
матрица. d
количество столбцов матрицы данных X
, и m
является вторым входным параметром factoran
.
The (i,j)
первый элемент lambda
- коэффициент, или загрузка, j
1й коэффициент для i
th переменная. По умолчанию factoran
вызывает функцию rotatefactors
для поворота расчетных факторных загрузок с помощью 'varimax'
опция. Для получения информации о вращении см. «Вращение факторных нагрузок и счетов».
psi
- Конкретные отклоненияОпределенные отклонения, возвращенные как d
-by- 1
вектор. d
количество столбцов матрицы данных X
. Записи psi
являются оценками максимальной вероятности.
T
- Вращение загрузокВращение загрузок, возвращаемое как m
-by- m
матрица. m
является вторым входным параметром factoran
. Для получения информации о вращении см. «Вращение факторных нагрузок и счетов».
stats
- Информация об общих факторахИнформация об общих факторах, возвращенная как структура. stats
содержит информацию, относящуюся к нулевой гипотезе, H0, что количество общих факторов m
.
stats
содержит следующие поля.
Область | Описание |
---|---|
loglike | Максимальное значение логарифмической правдоподобности |
dfe | Степени свободы ошибки = |
chisq | Аппроксимация хи-квадратной статистики для нулевой гипотезы |
p | Правый уровень значимости для нулевой гипотезы |
factoran
не вычисляет chisq
и p
поля, если только dfe
положительный и все конкретные оценки отклонений в psi
положительны (см. Heywood Case). Если X
является ковариационной матрицей, и вы хотите factoran
для вычисления chisq
и p
, тогда вы также должны задать 'Nobs'
аргумент пары "имя-значение".
F
- счета фактораСчета фактора, также называемые предсказаниями общих факторов, возвращаются как n
-by- m
матрица. n
количество строк в матрице данных X
, и m
является вторым входным параметром factoran
.
Примечание
Если X
является ковариационной матрицей (Xtype
= 'covariance'
), factoran
невозможно вычислить F
.
factoran
вращается F
использование того же критерия, что и для lambda
. Для получения информации о вращении см. «Вращение факторных нагрузок и счетов».
Если элементы psi
равны значению Delta
параметр (то есть они по существу равны нулю), подгонка известна как случай Хейвуда, и интерпретация полученных оценок проблематична. В частности, может быть несколько локальных максимумов вероятности, каждый с различными оценками загрузок и конкретных отклонений. Случаи Хейвуда могут указывать на сверхподбор кривой (m
слишком велик), но также может быть результатом недооценки.
Если вы явным образом не задаете вращение с помощью 'Rotate'
аргумент пары "имя-значение", factoran
вращает расчетные факторные загрузки lambda
и коэффициент оценивает F
. Выходная матрица T
используется для поворота загрузок, то есть lambda = lambda0*T
, где lambda0
- начальный (неограниченный) MLE загрузок. T
является ортогональной матрицей для ортогональных вращений и тождеств матрицей без поворота. Обратная T
известна как матрица поворота основной оси, тогда как T
сам по себе связан с матрицей поворота опорной оси. Для ортогональных вращений они идентичны.
factoran
вычисляет счета коэффициентов, которые были повернуты на inv(T')
, то есть F = F0 * inv(T')
, где F0
содержит неограниченные предсказания. Предполагаемая ковариация F
является inv(T'*T)
, которая является матрицей тождеств для ортогонального или без вращения. Вращение факторных нагрузок и счетов является попыткой создать структуру, которую легче интерпретировать в матрице загрузок после максимальной оценки правдоподобия.
Синтаксис для передачи дополнительных аргументов пользовательской функции вращения:
[Lambda,Psi,T] = ... factoran(X,2,'Rotate',@myrotation,'UserArgs',1,'two');
[1] Харман, Гарри Хорас. Современный факторный анализ. 3rd Ed. Chicago: University of Chicago Press, 1976.
[2] Jöreskog, K. G. «Некоторые вклады в анализ факторов максимальной вероятности». Психометрика 32, № 4 (декабрь 1967): 443-82. https://doi.org/10.1007/BF02289658
[3] Лоули, Д. Н., и А. Э. Максвелл. Факторный анализ как статистический метод. 2nd Ed. New York: American Elsevier Publishing Co., 1971.
pcacov
и factoran
не работают непосредственно с длинные массивы. Вместо этого используйте C = gather(cov(X))
для вычисления матрицы ковариации длинного массива. Затем можно использовать pcacov
или factoran
для работы с ковариационной матрицей в памяти. Также можно использовать pca
непосредственно на длинный массив.
Для получения дополнительной информации см. Раздел «Длинные массивы для данных , которых не помещаютсь в память,».
biplot
| pca
| pcacov
| procrustes
| rotatefactors
| statset
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.