Вписать отсутствующие данные с помощью метода ближайшего соседа
возвращает imputedData = knnimpute(data)imputedData после замены NaNs в вход data с соответствующим значением из столбца с ближайшим соседом. Если соответствующее значение из столбца с ближайшим соседом также NaNиспользуется следующий ближайший столбец. Функция вычисляет евклидово расстояние между столбцами наблюдений, используя только строки без NaN значения. Таким образом, данные должны иметь по крайней мере одну строку, которая не содержит NaN.
заменяет imputedData = knnimpute(data,k)NaNs в Data с взвешенным средним значением k столбцы с ближайшими соседями. Веса обратно пропорциональны расстояниям от соседних столбцов.
использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, imputedData = knnimpute(data,k,Name,Value)imputedData = knnimpute(data,k,'Distance','mahalanobis') использует расстояние Махаланобиса, чтобы вычислить ближайшие соседние столбцы.
[1] Скорость, Т. (2003). Статистический анализ данных микромассивов экспрессии генов (Chapman & Hall/CRC).
[2] Hastie, T., Tibshirani, R., Sherlock, G., Eisen, M., Brown, P., and Botstein, D. (1999). «Ввод недостающих данных для массивов экспрессии генов», Технический отчет, Деление биостатистики, Стэнфордский университет.
[3] Троянская, О., Кантор, М., Шерлок, Г., Браун, П., Хасти, Т., Тибширани, Р., Ботштейн, Д., и Альтман, Р. (2001). Отсутствующее значение методы оценки для ДНК микромассивов. Биоинформатика 17 (6), 520-525.