Что такое анализ выживания?

Введение

Анализ выживания является анализом времени к событию, то есть, когда результатом интереса является время, пока событие не имеет место. Примерами времени к событиям является время до заражения, повторения болезни или восстановления в медицинских науках, длительности безработицы в экономике, время до отказа части машины или время жизни лампочек в разработке, и так далее. Анализ выживания является частью исследований надежности в разработке. В этом случае это обычно используется, чтобы изучить время жизни промышленных компонентов. В анализах надежности времена выживания обычно называются временами отказа, как переменная интереса - то, сколько времени компонент функционирует правильно, прежде чем это перестанет работать.

Анализ выживания состоит из параметрических, полупараметрических, и непараметрических методов. Можно использовать их, чтобы оценить обычно используемые меры в исследованиях выживания, оставшемся в живых и функциях опасности, сравнить их для различных групп и оценить отношение переменных предикторов ко времени выживания. Некоторые статистические вероятностные распределения описывают времена выживания хорошо. Обычно используемые распределения экспоненциальны, Weibull, логарифмически нормальны, Берр и распределения Бирнбаума-Сондерса. Функции Statistics and Machine Learning Toolbox™ ecdf и ksdensity вычислите эмпирическое и оценки плотности ядра cdf, совокупной опасности и функций оставшегося в живых. coxphfit соответствует Cox пропорциональная модель опасностей к данным.

Цензурирование

Одна важная концепция в анализе выживания подвергает цензуре. Времена выживания некоторых индивидуумов не могут полностью наблюдаться из-за различных причин. В науках о жизни эта сила происходит когда исследование выживания (e.g., клиническое испытание) остановки перед целыми временами выживания всех индивидуумов могут наблюдаться, или человек выпадает из исследования, или для долгосрочных исследований, когда пациент потерян, чтобы продолжить. В промышленном контексте не все компоненты могут перестать работать перед концом исследования надежности. В таких случаях индивидуум выживает вне времени исследования, и точное время выживания неизвестно. Это называется правильным цензурированием.

Во время исследования выживания или индивидуум, как наблюдают, приводит к сбою во время T, или наблюдение относительно того индивидуума прекращает во время c. Затем наблюдение является min (T, c), и переменная I _c индикатора показывает, подвергается ли индивидуум цензуре или нет. Вычисления для опасности и функций оставшегося в живых должны быть настроены с учетом цензурирования. Statistics and Machine Learning Toolbox функционирует, такие как ecdf, ksdensity, coxphfit, и mle объясните цензурирование.

Данные

Данные о выживании обычно состоят из времени, пока мероприятие не происходит и информация о цензурировании для каждого индивидуума или компонента. Следующая таблица показывает фиктивное время безработицы индивидуумов в 6-месячном исследовании. Два индивидуума правы подвергнутый цензуре (обозначенный значением цензурирования 1). Один индивидуум был все еще безработным после 24-й недели, когда законченное исследование. Контакт с другим подвергнутым цензуре индивидуумом был потерян в конце 21-й недели.

Время безработицы (недели)	Цензурирование
14	0
23	0
7	0
21	1
19	0
16	0
24	1
8	0

Данные о выживании могут также включать количество отказов в определенное время (число раз, конкретное время выживания или отказа наблюдалось). Следующая таблица показывает симулированное время до спады светодиодов до 70% его полного уровня светоотдачи, в часах, в ускоренном жизненном тесте.

Время отказа (часы)	Частота
8600	6
15300	19
22000	11
28600	20
35300	17
42000	14
48700	8
55400	2
62100	0
68800	2

Данные могут также иметь информацию о переменных предикторах, чтобы использовать в полупараметрических подобных регрессии методах, таких как Cox пропорциональную регрессию опасностей.

Время до восстановления (недели)	Цензурирование	Пол	Систолическое артериальное давление	Диастолическое артериальное давление
12	1	Штекер	124	93
20	0	Розетка	109	77
7	0	Розетка	125	83
13	0	Штекер	117	75
9	1	Штекер	122	80
15	0	Розетка	121	70
17	1	Штекер	130	88
8	0	Розетка	115	82
14	0	Штекер	118	86

Функция оставшегося в живых

Функция оставшегося в живых является вероятностью выживания в зависимости от времени. Это также вызвано функция выживания. Это дает вероятность, что время выживания индивидуума превышает определенное значение. Поскольку кумулятивная функция распределения, F (t), является вероятностью, что время выживания меньше чем или равно данному моменту времени, функция выживания для непрерывного распределения, S (t), является дополнением кумулятивной функции распределения:

S (t) = 1 – F (t).

Функция оставшегося в живых также связана с функцией опасности. Если данные имеют функцию опасности, h (t), то функция оставшегося в живых

$S (t) = \exp (- \int_{0}^{t} h (u) d u),$

который соответствует

$S (t) = \exp (- H (t)),$

где H (t) является совокупной функцией опасности.

Подпилите функцию оставшегося в живых распределения

Попробовать в MATLAB

Вычислите и постройте функцию оставшегося в живых распределения Берра параметрами 50, 3, и 1.

x = 0:0.1:200;
figure()
plot(x,1-cdf('Burr',x,50,3,1))
xlabel('Failure time');
ylabel('Survival probability');

Figure contains an axes. The axes contains an object of type line.

Функция оставшегося в живых из данных

Попробовать в MATLAB

В этом примере показано, как оценить, что оставшийся в живых функционирует из данных.

Загрузите выборочные данные.

load readmissiontimes

Вектор-столбец ReadmissionTime показывает времена повторного доступа для 100 пациентов. Вектор-столбец Censored имеет информацию о цензуре для каждого пациента, где 1 указывает на подвергнутые цензуре данные, и 0, который указывает точное время повторного доступа, наблюдаются. Эти данные симулированы.

[ReadmissionTime Censored]

ans = 100×2

     5     1
     3     1
    19     0
    17     0
     9     0
    16     0
     4     0
     2     0
     3     0
    15     0
      ⋮

Первые два раза повторного доступа, 5 и 3, оба подвергаются цензуре.

Отобразите эмпирическую функцию оставшегося в живых с цензурированием использования ecdf с аргументами пары "имя-значение" 'function','survivor' и 'censoring',Censored.

ecdf(ReadmissionTime,'censoring',Censored,'function','survivor')

Figure contains an axes. The axes contains an object of type stair.

Функция опасности

Функция опасности дает мгновенную интенсивность отказов индивидуума, тренируемого на том, что индивидуум, переживший до данного времени. Таким образом,

$h (t) = \lim_{Δ t \to 0} \frac{P (t \leq T < t + Δ t | T \geq t)}{Δ t},$

где Δt является очень маленьким временным интервалом. Показатель риска, поэтому, иногда называется условной интенсивностью отказов. Функция опасности всегда принимает положительное значение. Однако эти значения не соответствуют вероятностям и могут быть больше 1.

Функция опасности связана с функцией плотности вероятности, f (t), кумулятивная функция распределения, F (t) и функция оставшегося в живых, S (t), можно следующим образом:

$h (t) = \frac{f (t)}{S (t)} = \frac{f (t)}{1 - F (t)},$

который также эквивалентен

$h (t) = - \frac{d}{d t} \ln S (t) .$

Так, если вы знаете форму функции выживания, можно также вывести соответствующую функцию опасности.

Подпилите функцию опасности распределения

Попробовать в MATLAB

Вычислите и постройте функцию опасности распределения Берра параметрами 50, 3, и 1.

x = 0:1:200;
Burrhazard = pdf('Burr',x,50,3,1)./(1-cdf('Burr',x,50,3,1));
figure()
plot(x,Burrhazard)
xlabel('Failure time');
ylabel('Hazard rate');

Figure contains an axes. The axes contains an object of type line.

Функции опасности Weibull

Попробовать в MATLAB

Существуют различные типы функций опасности. Предыдущий рисунок показывает ситуацию, когда увеличения показателя риска для ранних периодов времени и затем постепенно уменьшаются. Показатель риска может также монотонно уменьшаться, увеличение, или постоянный в зависимости от времени. Следующий рисунок показывает примеры различных типов функций опасности для данных, прибывающих из различных распределений Weibull.

figure
ax1 = subplot(3,1,1);
x1 = 0:0.05:10;
hazard1 = pdf('wbl',x1,3,0.6)./(1-cdf('wbl',x1,3,0.6));
plot(x1,hazard1,'color','b')
set(ax1,'Ylim',[0 0.6]);
legend(ax1,'a=3, b=0.6');

ax2 = subplot(3,1,2);
x2 = 0:0.05:10;
hazard2 = pdf('wbl',x2,9,4)./(1-cdf('wbl',x2,9,4));
plot(x2,hazard2,'color','r')
set(ax2,'Ylim',[0 0.6]);
legend(ax2,'a=9, b=4','location','southeast');

ax3 = subplot(3,1,3);
x3 = 0:0.05:10;
hazard3 = pdf('wbl',x3,2.5,1)./(1-cdf('wbl',x3,2.5,1));
plot(x3,hazard3,'color','g')
set(ax3,'Ylim',[0 0.6]);
legend(ax3,'a=2.5, b=1');

Figure contains 3 axes. Axes 1 contains an object of type line. This object represents a=3, b=0.6. Axes 2 contains an object of type line. This object represents a=9, b=4. Axes 3 contains an object of type line. This object represents a=2.5, b=1.

В третьем случае распределение Weibull имеет значение параметров формы 1, который соответствует экспоненциальному распределению. Экспоненциальное распределение всегда имеет постоянный показатель риска в зависимости от времени.

Ссылки

[1] Cox, D. R. и Д. Оукс. Анализ данных о выживании. Лондон: Chapman & Hall, 1984.

[2] Беззаконный, J. F. Статистические модели и методы для пожизненных данных. Хобокен, NJ: Wiley-межнаука, 2002.

[3] Kleinbaum, D. G. и М. Клейн. Анализ выживания. Статистика для Биологии и здоровья. 2-й выпуск. Спрингер, 2005.

Смотрите также

coxphfit | ecdf | ksdensity

Связанные примеры

Больше о

Документация Statistics and Machine Learning Toolbox

Поддержка

Сообщество Экспонента