Метод Каплана-Мейера

Функция Statistics and Machine Learning Toolbox™ ecdf производит эмпирическую совокупную опасность, оставшегося в живых и кумулятивные функции распределения при помощи Каплана-Мейера непараметрический метод. Средство оценки Каплана-Мейера для функции оставшегося в живых также называется средством оценки предела продукта.

Метод Каплана-Мейера использует данные о выживании, полученные в итоге в таблицах продолжительности жизни. Таблицы продолжительности жизни заказывают данные согласно возрастающим временам отказа, но вы не должны вводить времена отказа/выживания в упорядоченный способ, чтобы использовать ecdf.

Таблица продолжительности жизни обычно состоит из:

  • Времена отказа

  • Количество элементов перестало работать во время/период времени

  • Количество элементов подвергается цензуре во время/период времени

  • Количество элементов в опасности в начале времени/периода времени

Номер в опасности является общим количеством оставшихся в живых в начале каждого периода. Номер в опасности в начале первого периода является всеми людьми в пожизненном исследовании. В начале каждого оставшегося срока количество в опасности сокращено количеством отказов плюс люди, подвергнутые цензуре в конце предыдущего периода.

Эта таблица продолжительности жизни показывает фиктивные данные о выживании. В начале первого раза отказа в опасности существует семь элементов. Во время 4, три перестали работать. Таким образом в начале времени 7, в опасности существует четыре элемента. Только один сбой во время 7, таким образом, номер в опасности в начале времени 11 равняется трем. Два перестали работать во время 11, таким образом, в начале времени 12, номер в опасности является тем. Остающийся элемент перестал работать во время 12.

Время отказа (t)Не пройдено номерНомер в опасности
437
714
1123
1211

Можно оценить опасность, совокупную опасность, выживание и кумулятивные функции распределения с помощью таблиц продолжительности жизни, как описано затем.

Совокупный показатель риска (интенсивность отказов)

Показатель риска в каждый период является количеством отказов в установленном сроке, разделенном на количество выживающих людей в начале периода (номер в опасности).

Время отказа (t)Показатель риска (h (t))Совокупный показатель риска
000
t1 d 1/r1d 1/r1
t2 d 2/r2h (t 1) + d 2/r2
.........
t nd n/rnh (t n – 1) + dn/rn

Вероятность выживания

В течение каждого периода вероятность выживания является продуктом дополнения показателей риска. Начальная вероятность выживания в начале первого периода времени равняется 1. Если показателем риска в течение каждого периода является h (t i), то вероятность оставшегося в живых как показано.

Время (t)Вероятность выживания (S (t))
01
t1 1* (1 – h (t 1))
t2 S (t 1) * (1 – h (t 2))
......
t nS (t n – 1) * (1 – h (t n))

Кумулятивная функция распределения

Поскольку кумулятивная функция распределения (cdf) и функция оставшегося в живых являются дополнениями друг друга, можно найти cdf из таблиц продолжительности жизни с помощью F (t) = 1 – S (t).

Можно вычислить совокупный показатель риска, выживаемость и кумулятивную функцию распределения для моделируемых данных в первой таблице на этой странице можно следующим образом.

t Номер, не пройдено (d)Номер, подверженный риску (r)Показатель рискаВероятность выживанияКумулятивная функция распределения
4373/71 – 3/7 = 4/7 = 0.57140.4286
7141/44/7*(1 – 1/4) = 3/7 = .42860.5714
11232/33/7*(1 – 2/3) = 1/7 = 0.14290.8571
12111/11/7*(1 – 1) = 01

Это оценивает в этом примере, основаны на дискретных временах отказа, и следовательно вычисления не обязательно следуют основанному на производной определению в том, Что такое Анализ Выживания?

Вот то, как можно ввести данные и вычислить эти меры с помощью ecdf. Данные должны не обязательно быть в порядке возрастания. Предположим, что времена отказа хранятся в массиве y.

y = [4 7 11 12];
freq = [3 1 2 1];
[f,x] = ecdf(y,'frequency',freq)
f =

         0
    0.4286
    0.5714
    0.8571
    1.0000


x =

     4
     4
     7
    11
    12

Когда вы подвергли цензуре данные, таблица продолжительности жизни может быть похожей на следующее:

Время (t) Номер перестал работать (d)ЦензурированиеНомер, подверженный риску (r)Показатель рискаВероятность выживанияКумулятивная функция распределения
42172/71 – 2/7 = 0.71430.2857
71041/40.7143*(1 – 1/4) = 0.53570.4643
111132/30.5357*(1 – 1/3) = 0.35710.6429
121011/10.3571*(1 – 1) = 01.0000

В любой момент времени подвергнутые цензуре элементы также рассматриваются в общем количестве номера в опасности, и формула показателя риска основана на отказавшем номере и общее количество в опасности. При обновлении номера в опасности в начале каждого периода, общее количество привело к сбою и подвергло цензуре в предыдущий период, уменьшается от номера в опасности в начале того периода.

При использовании ecdf необходимо также ввести информацию о цензурировании с помощью массива бинарных переменных. Войдите 1 для подвергнутых цензуре данных и войдите 0 в течение точного времени отказа.

y = [4 4 4 7 11 11 12];
cens = [0 1 0 0 1 0 0];
[f,x] = ecdf(y,'censoring',cens)
f =

         0
    0.2857
    0.4643
    0.6429
    1.0000

x =

     4
     4
     7
    11
    12

ecdf, по умолчанию, производит значения кумулятивной функции распределения. Необходимо задать функцию оставшегося в живых или функцию опасности использование дополнительных аргументов пары "имя-значение". Можно также построить результаты можно следующим образом.

figure()
ecdf(y,'censoring',cens,'function','survivor');

figure()
ecdf(y,'censoring',cens,'function','cumulative hazard');

Ссылки

[1] Cox, D. R. и Д. Оукс. Анализ данных о выживании. Лондон: Chapman & Hall, 1984.

[2] Беззаконный, J. F. Статистические модели и методы для пожизненных данных. Хобокен, NJ: Wiley-межнаука, 2002.

[3] Kleinbaum, D. G. и М. Клейн. Анализ выживания. Статистика для Биологии и здоровья. 2-й выпуск. Спрингер, 2005.

Смотрите также

| |

Связанные примеры

Больше о