Анализ выживания - это анализ времени до события, то есть когда интересующим результатом является время до наступления события. Примерами времени до событий являются время до заражения, рецидива заболевания или восстановления в науках о здоровье, продолжительность безработицы в экономике, время до отказа машинной части или срока службы лампочек в технике и так далее. Анализ выживаемости является частью исследований надежности в инженерии. При этом обычно используется для изучения срока службы промышленных компонентов. В анализе надежности время выживания обычно называется временем отказа, так как интересующей переменной является то, сколько времени компонент функционирует правильно до отказа.
Анализ выживаемости состоит из параметрических, полупараметрических и непараметрических методов. Их можно использовать для оценки наиболее часто используемых показателей в исследованиях выживаемости, функций выживших и опасностей, сравнения их для различных групп и оценки взаимосвязи переменных предиктора со временем выживания. Некоторые статистические распределения вероятности хорошо описывают времена выживания. Обычно используются экспоненциальные распределения, распределения Вейбулла, логнормального, Бёрра и Бирнбаума-Сондерса. Функции Toolbox™ статистики и машинного обучения ecdf и ksdensity вычислить эмпирические оценки и оценки плотности ядра cdf, кумулятивной опасности и функций выживших. coxphfit подгоняет модель пропорциональных рисков Кокса к данным.
Одной из важных концепций в анализе выживания является цензура. Время выживания некоторых людей может наблюдаться не полностью из-за разных причин. В науках о жизни это может произойти, когда исследование выживаемости (например, клиническое испытание) прекращается до того, как можно будет наблюдать полное время выживания всех людей, или когда человек выбывает из исследования или для долгосрочных исследований, когда пациент теряется для наблюдения. В промышленном контексте не все компоненты могли выйти из строя до окончания исследования надежности. В таких случаях человек выживает после окончания исследования, и точное время выживания неизвестно. Это называется правильной цензурой.
Во время исследования выживаемости либо индивидуум находится в состоянии неудачи в момент времени T, либо наблюдение на этом индивидууме прекращается в момент времени C. Затем наблюдение составляет min (T, c), и переменная индикатора Ic показывает, является ли индивидуум подвергнутым цензуре или нет. Статистика и функции инструментария машинного обучения, такие какecdf, ksdensity, coxphfit, и mle счет для цензуры.
Данные о выживании обычно состоят из времени, пока не произойдет интересующее событие, и цензурной информации для каждого человека или компонента. В следующей таблице показано фиктивное время безработицы отдельных лиц в шестимесячном исследовании. Два человека подвергаются правильной цензуре (обозначается цензурой 1). Один человек все еще был безработным после 24-й недели, когда исследование закончилось. Контакт с другим подвергнутым цензуре человеком был потерян в конце 21-й недели.
| Время безработицы (недели) | Цензурирование |
|---|---|
| 14 | 0 |
| 23 | 0 |
| 7 | 0 |
| 21 | 1 |
| 19 | 0 |
| 16 | 0 |
| 24 | 1 |
| 8 | 0 |
Данные о выживаемости могут также включать количество отказов в определенное время (количество раз, когда наблюдалось конкретное время выживания или отказа). В следующей таблице показано смоделированное время до тех пор, пока светоизлучающие диоды не упадут до 70% от полного уровня светового излучения в часах при ускоренном испытании срока службы.
| Время отказа (ч) | Частота |
|---|---|
| 8600 | 6 |
| 15300 | 19 |
| 22000 | 11 |
| 28600 | 20 |
| 35300 | 17 |
| 42000 | 14 |
| 48700 | 8 |
| 55400 | 2 |
| 62100 | 0 |
| 68800 | 2 |
Данные также могут иметь информацию о переменных предиктора, чтобы использовать в полупараметрических регрессионных методах, таких как регрессия пропорциональных рисков Кокса.
| Время до восстановления (недели) | Цензурирование | Пол | Систолическое артериальное давление | Диастолическое артериальное давление |
|---|---|---|---|---|
| 12 | 1 | Мужчина | 124 | 93 |
| 20 | 0 | Женщина | 109 | 77 |
| 7 | 0 | Женщина | 125 | 83 |
| 13 | 0 | Мужчина | 117 | 75 |
| 9 | 1 | Мужчина | 122 | 80 |
| 15 | 0 | Женщина | 121 | 70 |
| 17 | 1 | Мужчина | 130 | 88 |
| 8 | 0 | Женщина | 115 | 82 |
| 14 | 0 | Мужчина | 118 | 86 |
Функция выжившего - это вероятность выживания как функция времени. Его также называют функцией выживания. Она даёт вероятность того, что время выживания индивида превышает определённое значение. Поскольку кумулятивная функция распределения, F (t), является вероятностью того, что время выживания меньше или равно заданному моменту времени, функция выживания для непрерывного распределения, S (t), является дополнением кумулятивной функции распределения:
S (t) = 1 - F (t).
Функция выжившего также связана с функцией опасности. Если данные имеют функцию опасности h (t), то функция выжившего будет
) du),
который соответствует
(t)),
где H (t) - кумулятивная функция опасности.
Расчет и построение графика функции выжившего распределения Бёрра с параметрами 50, 3, и 1.
x = 0:0.1:200; figure() plot(x,1-cdf('Burr',x,50,3,1)) xlabel('Failure time'); ylabel('Survival probability');

В этом примере показано, как оценить функцию выжившего по данным.
Загрузите образцы данных.
load readmissiontimesВектор столбца ReadmissionTime показывает время реадмиссии для 100 пациентов. Вектор столбца Censored имеет цензурную информацию для каждого пациента, где 1 указывает цензурные данные, и 0, который указывает точное время реадмиссии соблюдаются. Эти данные моделируются.
[ReadmissionTime Censored]
ans = 100×2
5 1
3 1
19 0
17 0
9 0
16 0
4 0
2 0
3 0
15 0
⋮
Первые два времени реадмиссии, 5 и 3, оба подвергаются цензуре.
Отображение эмпирической функции survivor с использованием цензуры ecdf с аргументами пары имя-значение 'function','survivor' и 'censoring',Censored.
ecdf(ReadmissionTime,'censoring',Censored,'function','survivor')

Функция опасности дает мгновенную частоту отказов индивидуума, обусловленную тем, что индивидуум выжил до заданного времени. То есть
Δt,
где Δt - очень маленький интервал времени. Поэтому степень опасности иногда называют условной частотой отказов. Функция опасности всегда принимает положительное значение. Однако эти значения не соответствуют вероятностям и могут быть больше 1.
Функция опасности связана с функцией плотности вероятности f (t), кумулятивной функцией распределения F (t) и функцией выжившего S (t) следующим образом:
t) 1 − F (t),
который также эквивалентен
(t).
Таким образом, если вы знаете форму функции выживания, вы также можете вывести соответствующую функцию опасности.
Расчет и построение графика функции опасности распределения Burr с параметрами 50, 3, и 1.
x = 0:1:200; Burrhazard = pdf('Burr',x,50,3,1)./(1-cdf('Burr',x,50,3,1)); figure() plot(x,Burrhazard) xlabel('Failure time'); ylabel('Hazard rate');

Существуют различные типы функций опасности. На предыдущем рисунке показана ситуация, когда уровень опасности увеличивается в первые периоды времени, а затем постепенно снижается. Степень опасности также может монотонно уменьшаться, увеличиваться или быть постоянной с течением времени. На следующем рисунке показаны примеры различных типов функций опасности для данных, поступающих из различных распределений Вейбулла.
figure ax1 = subplot(3,1,1); x1 = 0:0.05:10; hazard1 = pdf('wbl',x1,3,0.6)./(1-cdf('wbl',x1,3,0.6)); plot(x1,hazard1,'color','b') set(ax1,'Ylim',[0 0.6]); legend(ax1,'a=3, b=0.6'); ax2 = subplot(3,1,2); x2 = 0:0.05:10; hazard2 = pdf('wbl',x2,9,4)./(1-cdf('wbl',x2,9,4)); plot(x2,hazard2,'color','r') set(ax2,'Ylim',[0 0.6]); legend(ax2,'a=9, b=4','location','southeast'); ax3 = subplot(3,1,3); x3 = 0:0.05:10; hazard3 = pdf('wbl',x3,2.5,1)./(1-cdf('wbl',x3,2.5,1)); plot(x3,hazard3,'color','g') set(ax3,'Ylim',[0 0.6]); legend(ax3,'a=2.5, b=1');

В третьем случае распределение Вейбулла имеет значение параметра формы, равное 1, что соответствует экспоненциальному распределению. Экспоненциальное распределение всегда имеет постоянный коэффициент опасности во времени.
[1] Кокс, D. R. и Д. Оукс. Анализ данных о выживании. Лондон: Chapman & Hall, 1984.
[2] Беззаконие, J.F. Статистические модели и методы для данных о сроке службы. Хобокен, Нью-Джерси: Wiley-Interscience, 2002.
[3] Клейнбаум, Д. Г. и М. Кляйн. Анализ выживания. Статистика биологии и здравоохранения. 2-е издание. Спрингер, 2005.