Наборы данных могут потребовать предварительной обработки для обеспечения точного, эффективный, или содержательного анализа. Очистка данных обращается к методам для поиска, удаления и замены плохих или отсутствующих данных. Обнаружение локальных экстремальных значений и резких изменений может помочь идентифицировать значительные тренды данных. Сглаживание и удаление тренда являются процессами для удаления шумовых и линейных трендов от данных при масштабировании изменений границы данных. Методы группировки и биннинга являются методами, которые идентифицируют связи между переменными.
Обработайте отсутствующие значения в наборах данных.
Очистка грязных и пропущенных данных в таблицах
Этот пример показывает, как найти, убрать, и удалить строки таблицы с недостающими данными.
Усреднение данных и определение выбросов
Устраните нежелательный шум или поведение в данных, и найдите, заполните и удалите выбросы.
Удаление линейного тренда из данных.
Группировка переменных для разделения данных
Можно использовать группирующие переменные, чтобы категоризировать переменные данных.
Разделение данных на группы и вычисление статистики
Этот пример показывает, как сгруппировать данные и применить функции статистики к каждой группе.
Разделение данных табличных переменных и применение функций
Этот пример показывает, как сгруппировать переменные данных и применить функции к каждой группе.