Вписать отсутствующие данные с помощью метода ближайшего соседа
возвращает imputedData
= knnimpute(data
)imputedData
после замены NaN
s в вход data
с соответствующим значением из столбца с ближайшим соседом. Если соответствующее значение из столбца с ближайшим соседом также NaN
используется следующий ближайший столбец. Функция вычисляет евклидово расстояние между столбцами наблюдений, используя только строки без NaN
значения. Таким образом, данные должны иметь по крайней мере одну строку, которая не содержит NaN
.
заменяет imputedData
= knnimpute(data
,k
)NaN
s в Data
с взвешенным средним значением k
столбцы с ближайшими соседями. Веса обратно пропорциональны расстояниям от соседних столбцов.
использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, imputedData
= knnimpute(data
,k
,Name,Value
)imputedData = knnimpute(data,k,'Distance','mahalanobis')
использует расстояние Махаланобиса, чтобы вычислить ближайшие соседние столбцы.
[1] Скорость, Т. (2003). Статистический анализ данных микромассивов экспрессии генов (Chapman & Hall/CRC).
[2] Hastie, T., Tibshirani, R., Sherlock, G., Eisen, M., Brown, P., and Botstein, D. (1999). «Ввод недостающих данных для массивов экспрессии генов», Технический отчет, Деление биостатистики, Стэнфордский университет.
[3] Троянская, О., Кантор, М., Шерлок, Г., Браун, П., Хасти, Т., Тибширани, Р., Ботштейн, Д., и Альтман, Р. (2001). Отсутствующее значение методы оценки для ДНК микромассивов. Биоинформатика 17 (6), 520-525.