Что такое анализ выживания?

Введение

Анализ выживания является анализом времени до события, то есть, когда интересующим результатом является время до наступления события. Примерами времени до событий являются время до заражения, повторного возникновения заболевания или восстановления в области здравоохранения, длительность безработицы в экономике, время до отказа машинной части или времени жизни лампочек в технике и так далее. Анализ выживания является частью исследований надежности в инженерии. При этом обычно используется для изучения срока службы промышленных компонентов. В анализе надежности время выживания обычно называется временем отказа, так как интересующей переменной является то, сколько времени компонент функционирует правильно, прежде чем он перестанет работать.

Анализ выживания состоит из параметрических, семипараметрических и непараметрических методов. Можно использовать их, чтобы оценить наиболее часто используемые показатели в исследованиях выживания, функции выживания и опасности, сравнить их для различных групп и оценить связь переменных предиктора со временем выживания. Некоторые статистические распределения вероятностей хорошо описывают время выживания. Обычно используемые распределения являются экспоненциальными, распределения Вейбула, lognormal, Burr и Birnbaum-Saunders. Statistics and Machine Learning Toolbox™ ecdf и ksdensity вычислите эмпирические и оценки плотности ядра функций cdf, совокупной опасности и выжившего. coxphfit соответствует модели пропорциональных рисков Кокса данным.

Цензурирование

Одной из важных концепций анализа выживания является цензура. Время выживания некоторых индивидуумов может не полностью наблюдаться по разным причинам. В науке о жизни это может произойти, когда исследование выживания (например, клиническое исследование) останавливается, прежде чем можно будет наблюдать полное время выживания всех индивидуумов, или человек выпадает из исследования, или для долгосрочных исследований, когда пациент теряется для наблюдения. В промышленном контексте не все компоненты могли выйти из строя до окончания исследования надежности. В таких случаях индивидуум выживает сверх времени исследования, и точное время выживания неизвестно. Это называется правильной цензурой.

Во время исследования выживания либо наблюдают неудачу индивидуума в T момент времени, либо наблюдение за этим индивидуумом прекращается в c времени. Тогда наблюдение минимальное (T, c) и показатель переменной I c показывает, цензурирован ли человек или нет. Расчеты на опасность и выжившие функции должны быть скорректированы с учетом цензуры. Функции Statistics and Machine Learning Toolbox, такие как ecdf, ksdensity, coxphfit, и mle учитывайте цензуру.

Данные

Данные о выживании обычно состоят из времени до наступления интересующего события и информации о цензуре для каждого индивидуума или компонента. Следующая таблица показывает фиктивное время безработицы индивидуумов в 6-месячном исследовании. Два индивидуумов подвергаются правой цензуре (обозначается цензурным значением 1). Один индивидуум все еще был безработным после 24-й недели, когда исследование закончилось. Контакт с другим подвергнутым цензуре индивидуумом был утрачен в конце 21-й недели.

Время безработицы (недели)	Цензурирование
14	0
23	0
7	0
21	1
19	0
16	0
24	1
8	0

Данные о выживании могут также включать количество отказов в определенное время (количество раз, когда наблюдалось конкретное время выживания или отказа). Следующая таблица показывает моделируемое время до тех пор, пока светодиоды не опустятся до 70% от его полного уровня выходного света, в часах, в ускоренном тесте жизни.

Время отказа (ч)	Частота
8600	6
15300	19
22000	11
28600	20
35300	17
42000	14
48700	8
55400	2
62100	0
68800	2

Данные могут также иметь информацию о переменных предиктора, для использования в полупараметрических регрессионоподобных методах, таких как регрессия пропорциональных рисков Кокса.

Время до восстановления (недели)	Цензурирование	Пол	Systolic артериальное давление	Диастолическое артериальное давление
12	1	Мужчина	124	93
20	0	Женщина	109	77
7	0	Женщина	125	83
13	0	Мужчина	117	75
9	1	Мужчина	122	80
15	0	Женщина	121	70
17	1	Мужчина	130	88
8	0	Женщина	115	82
14	0	Мужчина	118	86

Функция выживания

Функция выжившего является вероятностью выживания как функция времени. Это также называется функцией выживания. Это дает вероятность того, что время выживания индивидуума превышает определенное значение. Поскольку совокупная функция распределения F (t) является вероятностью того, что время выживания меньше или равно заданному точке времени, функция выживания для непрерывного распределения, S (t), является дополнением совокупной функции распределения:

S (<reservedrangesplaceholder2>) = 1 – F (<reservedrangesplaceholder0>).

Функция выжившего также связана с функцией опасности. Если данные имеют функцию опасности, h (t), то функция выжившего

$S (t) = \exp (- \int_{0}^{t} h (u) d u),$

который соответствует

$S (t) = \exp (- H (t)),$

где H (t) является совокупной функцией опасности.

Функция выживания распределения заусенцев

Открыть Live Script

Вычислите и постройте график функции выживания распределения Burr с параметрами 50, 3, и 1.

x = 0:0.1:200;
figure()
plot(x,1-cdf('Burr',x,50,3,1))
xlabel('Failure time');
ylabel('Survival probability');

Figure contains an axes. The axes contains an object of type line.

Функция выживания из данных

Открыть Live Script

Этот пример показывает, как оценить функцию выжившего из данных.

Загрузите выборочные данные.

load readmissiontimes

Область вектора-столбца ReadmissionTime показывает время реадмиссии для 100 пациентов. Область вектора-столбца Censored имеет информацию цензуры для каждого пациента, где 1 указывает на цензурные данные, и 0, которая указывает на точное время реадмиссии наблюдаются. Эти данные моделируются.

[ReadmissionTime Censored]

ans = 100×2

     5     1
     3     1
    19     0
    17     0
     9     0
    16     0
     4     0
     2     0
     3     0
    15     0
      ⋮

Первые два раза реадмиссии, 5 и 3, оба подвергаются цензуре.

Отобразите эмпирическую функцию выжившего с помощью цензуры с помощью ecdf с аргументами пары "имя-значение" 'function','survivor' и 'censoring',Censored.

ecdf(ReadmissionTime,'censoring',Censored,'function','survivor')

Figure contains an axes. The axes contains an object of type stair.

Функция опасности

Функция опасности дает мгновенную частоту отказов индивидуума, обусловленную тем, что индивидуум дожил до заданного времени. То есть,

$h (t) = \lim_{Δ t \to 0} \frac{P (t \leq T < t + Δ t | T \geq t)}{Δ t},$

где 't' является очень маленьким временным интервалом. Поэтому скорость опасности иногда называется условной частотой отказа. Функция опасности всегда принимает положительное значение. Однако эти значения не соответствуют вероятностям и могут быть больше 1.

Функция опасности связана с функцией плотности вероятностей, f (t), совокупной функцией распределения, F (t) и функцией выживания, S (t), следующим образом:

$h (t) = \frac{f (t)}{S (t)} = \frac{f (t)}{1 - F (t)},$

что также эквивалентно

$h (t) = - \frac{d}{d t} \ln S (t) .$

Итак, если вы знаете форму функции выживания, можно также вывести соответствующую функцию опасности.

Функция риска распределения заусенцев

Открыть Live Script

Вычислите и постройте график функции опасности распределения Burr с параметрами 50, 3, и 1.

x = 0:1:200;
Burrhazard = pdf('Burr',x,50,3,1)./(1-cdf('Burr',x,50,3,1));
figure()
plot(x,Burrhazard)
xlabel('Failure time');
ylabel('Hazard rate');

Figure contains an axes. The axes contains an object of type line.

Функции опасности Weibull

Открыть Live Script

Существуют различные типы опасных функций. Предыдущий рисунок показывает ситуацию, когда коэффициент опасности увеличивается в течение ранних периодов времени, а затем постепенно уменьшается. Скорость опасности также может быть монотонно уменьшающейся, увеличивающейся или постоянной с течением времени. Следующий рисунок показывает примеры различных типов функций опасности для данных, поступающих из различных распределений Вейбула.

figure
ax1 = subplot(3,1,1);
x1 = 0:0.05:10;
hazard1 = pdf('wbl',x1,3,0.6)./(1-cdf('wbl',x1,3,0.6));
plot(x1,hazard1,'color','b')
set(ax1,'Ylim',[0 0.6]);
legend(ax1,'a=3, b=0.6');

ax2 = subplot(3,1,2);
x2 = 0:0.05:10;
hazard2 = pdf('wbl',x2,9,4)./(1-cdf('wbl',x2,9,4));
plot(x2,hazard2,'color','r')
set(ax2,'Ylim',[0 0.6]);
legend(ax2,'a=9, b=4','location','southeast');

ax3 = subplot(3,1,3);
x3 = 0:0.05:10;
hazard3 = pdf('wbl',x3,2.5,1)./(1-cdf('wbl',x3,2.5,1));
plot(x3,hazard3,'color','g')
set(ax3,'Ylim',[0 0.6]);
legend(ax3,'a=2.5, b=1');

Figure contains 3 axes. Axes 1 contains an object of type line. This object represents a=3, b=0.6. Axes 2 contains an object of type line. This object represents a=9, b=4. Axes 3 contains an object of type line. This object represents a=2.5, b=1.

В третьем случае распределение Вейбула имеет значение параметров формы 1, что соответствует экспоненциальному распределению. Экспоненциальное распределение всегда имеет постоянную скорость опасности с течением времени.

Ссылки

[1] Кокс, Д. Р. и Д. Окс. Анализ данных о выживании. Лондон: Chapman & Hall, 1984.

[2] Lawless, J. F. Статистические модели и методы для пожизненных данных. Hoboken, NJ: Wiley-Interscience, 2002.

[3] Клейнбаум, Д. Г., и М. Клейн. Анализ выживания. Статистика по биологии и здоровью. 2-е издание. Спрингер, 2005.

См. также

coxphfit | ecdf | ksdensity

Документация