Анализ выживания является анализом времени до события, то есть, когда интересующим результатом является время до наступления события. Примерами времени до событий являются время до заражения, повторного возникновения заболевания или восстановления в области здравоохранения, длительность безработицы в экономике, время до отказа машинной части или времени жизни лампочек в технике и так далее. Анализ выживания является частью исследований надежности в инженерии. При этом обычно используется для изучения срока службы промышленных компонентов. В анализе надежности время выживания обычно называется временем отказа, так как интересующей переменной является то, сколько времени компонент функционирует правильно, прежде чем он перестанет работать.
Анализ выживания состоит из параметрических, семипараметрических и непараметрических методов. Можно использовать их, чтобы оценить наиболее часто используемые показатели в исследованиях выживания, функции выживания и опасности, сравнить их для различных групп и оценить связь переменных предиктора со временем выживания. Некоторые статистические распределения вероятностей хорошо описывают время выживания. Обычно используемые распределения являются экспоненциальными, распределения Вейбула, lognormal, Burr и Birnbaum-Saunders. Statistics and Machine Learning Toolbox™ ecdf
и ksdensity
вычислите эмпирические и оценки плотности ядра функций cdf, совокупной опасности и выжившего. coxphfit
соответствует модели пропорциональных рисков Кокса данным.
Одной из важных концепций анализа выживания является цензура. Время выживания некоторых индивидуумов может не полностью наблюдаться по разным причинам. В науке о жизни это может произойти, когда исследование выживания (например, клиническое исследование) останавливается, прежде чем можно будет наблюдать полное время выживания всех индивидуумов, или человек выпадает из исследования, или для долгосрочных исследований, когда пациент теряется для наблюдения. В промышленном контексте не все компоненты могли выйти из строя до окончания исследования надежности. В таких случаях индивидуум выживает сверх времени исследования, и точное время выживания неизвестно. Это называется правильной цензурой.
Во время исследования выживания либо наблюдают неудачу индивидуума в T момент времени, либо наблюдение за этим индивидуумом прекращается в c времени. Тогда наблюдение минимальное (T, c) и показатель переменной I c показывает, цензурирован ли человек или нет. Расчеты на опасность и выжившие функции должны быть скорректированы с учетом цензуры. Функции Statistics and Machine Learning Toolbox, такие как ecdf
, ksdensity
, coxphfit
, и mle
учитывайте цензуру.
Данные о выживании обычно состоят из времени до наступления интересующего события и информации о цензуре для каждого индивидуума или компонента. Следующая таблица показывает фиктивное время безработицы индивидуумов в 6-месячном исследовании. Два индивидуумов подвергаются правой цензуре (обозначается цензурным значением 1). Один индивидуум все еще был безработным после 24-й недели, когда исследование закончилось. Контакт с другим подвергнутым цензуре индивидуумом был утрачен в конце 21-й недели.
Время безработицы (недели) | Цензурирование |
---|---|
14 | 0 |
23 | 0 |
7 | 0 |
21 | 1 |
19 | 0 |
16 | 0 |
24 | 1 |
8 | 0 |
Данные о выживании могут также включать количество отказов в определенное время (количество раз, когда наблюдалось конкретное время выживания или отказа). Следующая таблица показывает моделируемое время до тех пор, пока светодиоды не опустятся до 70% от его полного уровня выходного света, в часах, в ускоренном тесте жизни.
Время отказа (ч) | Частота |
---|---|
8600 | 6 |
15300 | 19 |
22000 | 11 |
28600 | 20 |
35300 | 17 |
42000 | 14 |
48700 | 8 |
55400 | 2 |
62100 | 0 |
68800 | 2 |
Данные могут также иметь информацию о переменных предиктора, для использования в полупараметрических регрессионоподобных методах, таких как регрессия пропорциональных рисков Кокса.
Время до восстановления (недели) | Цензурирование | Пол | Systolic артериальное давление | Диастолическое артериальное давление |
---|---|---|---|---|
12 | 1 | Мужчина | 124 | 93 |
20 | 0 | Женщина | 109 | 77 |
7 | 0 | Женщина | 125 | 83 |
13 | 0 | Мужчина | 117 | 75 |
9 | 1 | Мужчина | 122 | 80 |
15 | 0 | Женщина | 121 | 70 |
17 | 1 | Мужчина | 130 | 88 |
8 | 0 | Женщина | 115 | 82 |
14 | 0 | Мужчина | 118 | 86 |
Функция выжившего является вероятностью выживания как функция времени. Это также называется функцией выживания. Это дает вероятность того, что время выживания индивидуума превышает определенное значение. Поскольку совокупная функция распределения F (t) является вероятностью того, что время выживания меньше или равно заданному точке времени, функция выживания для непрерывного распределения, S (t), является дополнением совокупной функции распределения:
S (<reservedrangesplaceholder2>) = 1 – F (<reservedrangesplaceholder0>).
Функция выжившего также связана с функцией опасности. Если данные имеют функцию опасности, h (t), то функция выжившего
который соответствует
где H (t) является совокупной функцией опасности.
Вычислите и постройте график функции выживания распределения Burr с параметрами 50
, 3
, и 1
.
x = 0:0.1:200; figure() plot(x,1-cdf('Burr',x,50,3,1)) xlabel('Failure time'); ylabel('Survival probability');
Этот пример показывает, как оценить функцию выжившего из данных.
Загрузите выборочные данные.
load readmissiontimes
Область вектора-столбца ReadmissionTime
показывает время реадмиссии для 100 пациентов. Область вектора-столбца Censored
имеет информацию цензуры для каждого пациента, где 1 указывает на цензурные данные, и 0, которая указывает на точное время реадмиссии наблюдаются. Эти данные моделируются.
[ReadmissionTime Censored]
ans = 100×2
5 1
3 1
19 0
17 0
9 0
16 0
4 0
2 0
3 0
15 0
⋮
Первые два раза реадмиссии, 5
и 3
, оба подвергаются цензуре.
Отобразите эмпирическую функцию выжившего с помощью цензуры с помощью ecdf
с аргументами пары "имя-значение" 'function','survivor'
и 'censoring',Censored
.
ecdf(ReadmissionTime,'censoring',Censored,'function','survivor')
Функция опасности дает мгновенную частоту отказов индивидуума, обусловленную тем, что индивидуум дожил до заданного времени. То есть,
где 't' является очень маленьким временным интервалом. Поэтому скорость опасности иногда называется условной частотой отказа. Функция опасности всегда принимает положительное значение. Однако эти значения не соответствуют вероятностям и могут быть больше 1.
Функция опасности связана с функцией плотности вероятностей, f (t), совокупной функцией распределения, F (t) и функцией выживания, S (t), следующим образом:
что также эквивалентно
Итак, если вы знаете форму функции выживания, можно также вывести соответствующую функцию опасности.
Вычислите и постройте график функции опасности распределения Burr с параметрами 50
, 3
, и 1
.
x = 0:1:200; Burrhazard = pdf('Burr',x,50,3,1)./(1-cdf('Burr',x,50,3,1)); figure() plot(x,Burrhazard) xlabel('Failure time'); ylabel('Hazard rate');
Существуют различные типы опасных функций. Предыдущий рисунок показывает ситуацию, когда коэффициент опасности увеличивается в течение ранних периодов времени, а затем постепенно уменьшается. Скорость опасности также может быть монотонно уменьшающейся, увеличивающейся или постоянной с течением времени. Следующий рисунок показывает примеры различных типов функций опасности для данных, поступающих из различных распределений Вейбула.
figure ax1 = subplot(3,1,1); x1 = 0:0.05:10; hazard1 = pdf('wbl',x1,3,0.6)./(1-cdf('wbl',x1,3,0.6)); plot(x1,hazard1,'color','b') set(ax1,'Ylim',[0 0.6]); legend(ax1,'a=3, b=0.6'); ax2 = subplot(3,1,2); x2 = 0:0.05:10; hazard2 = pdf('wbl',x2,9,4)./(1-cdf('wbl',x2,9,4)); plot(x2,hazard2,'color','r') set(ax2,'Ylim',[0 0.6]); legend(ax2,'a=9, b=4','location','southeast'); ax3 = subplot(3,1,3); x3 = 0:0.05:10; hazard3 = pdf('wbl',x3,2.5,1)./(1-cdf('wbl',x3,2.5,1)); plot(x3,hazard3,'color','g') set(ax3,'Ylim',[0 0.6]); legend(ax3,'a=2.5, b=1');
В третьем случае распределение Вейбула имеет значение параметров формы 1
, что соответствует экспоненциальному распределению. Экспоненциальное распределение всегда имеет постоянную скорость опасности с течением времени.
[1] Кокс, Д. Р. и Д. Окс. Анализ данных о выживании. Лондон: Chapman & Hall, 1984.
[2] Lawless, J. F. Статистические модели и методы для пожизненных данных. Hoboken, NJ: Wiley-Interscience, 2002.
[3] Клейнбаум, Д. Г., и М. Клейн. Анализ выживания. Статистика по биологии и здоровью. 2-е издание. Спрингер, 2005.