Припишите недостающие данные с помощью метода ближайшего соседа
возвращает imputedData
= knnimpute(data
)imputedData
после заменяющий NaN
s во входе data
с соответствующим значением из столбца ближайшего соседа. Если соответствующим значением из столбца ближайшего соседа является также NaN
, следующий самый близкий столбец используется. Функция вычисляет Евклидово расстояние между столбцами наблюдения только при помощи строк без NaN
значения. Таким образом данные должны иметь по крайней мере одну строку, которая не содержит NaN
.
замены imputedData
= knnimpute(data
,k
)NaN
s в Data
со взвешенным средним k
столбцы ближайшего соседа. Веса обратно пропорциональны расстояниям от соседних столбцов.
дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, imputedData
= knnimpute(data
,k
,Name,Value
)imputedData = knnimpute(data,k,'Distance','mahalanobis')
использует расстояние Mahalanobis, чтобы вычислить столбцы ближайшего соседа.
[1] Скорость, T. (2003). Статистический анализ микроданных массива экспрессии гена (Chapman & Hall/CRC).
[2] Hastie, T., Tibshirani, R., Шерлок, G., Эйсен, M., Браун, P. и Ботштайн, D. (1999). “Приписывая недостающие данные для массивов экспрессии гена”, Технический отчет, Деление Биостатистики, Стэнфордский университет.
[3] Troyanskaya, O., Кантор, M., Шерлок, G., Браун, P., Hastie, T., Tibshirani, R., Ботштайн, D. и Олтмен, R. (2001). Методы оценки отсутствующего значения для микромассивов ДНК. Биоинформатика 17 (6), 520–525.