Вычислить отсутствующие данные методом ближайшего соседа
прибыль imputedData = knnimpute(data)imputedData после замены NaNs на входе data с соответствующим значением из ближайшего соседнего столбца. Если соответствующее значение из ближайшего соседнего столбца также NaN, используется следующий ближайший столбец. Функция вычисляет евклидово расстояние между столбцами наблюдения, используя только строки без NaN значения. Таким образом, данные должны иметь по крайней мере одну строку, которая не содержит NaN.
заменяет imputedData = knnimpute(data,k)NaNs в Data со средневзвешенным значением k столбцы ближайшего соседа. Веса обратно пропорциональны расстояниям от соседних столбцов.
использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, imputedData = knnimpute(data,k,Name,Value)imputedData = knnimpute(data,k,'Distance','mahalanobis') использует расстояние Махаланобиса для вычисления ближайших соседних столбцов.
[1] Скорость, Т. (2003). Статистический анализ данных микрочипов экспрессии генов (Chapman & Hall/CRC).
[2] Хасти, Т., Тибширани, Р., Шерлок, Г., Эйзен, М., Браун, П. и Ботштейн, Д. (1999). «Вменение недостающих данных для массивов экспрессии генов», Технический отчет, Отдел биостатистики, Стэнфордский университет.
[3] Троянская, О., Кантор, М., Шерлок, Г., Браун, П., Хасти, Т., Тибширани, Р., Ботштейн, Д., и Альтман, Р. (2001). Отсутствуют методы оценки стоимости для микрочипов ДНК. Биоинформатика 17 (6), 520-525.