Используемые продукты: Statistics and Machine Learning Toolbox™, Database Toolbox™, Parallel Computing Toolbox™, MATLAB® Parallel Server™, MATLAB Compiler™
Несколько тулбоксов улучшают возможности длинных массивов. Эти улучшения включают написавшие алгоритмы машинного обучения, объединяющиеся с большими системами передачи и обработки данных и развертывающие автономные приложения.
Statistics and Machine Learning Toolbox позволяет вам выполнить усовершенствованные статистические вычисления на длинных массивах. Возможности включают:
Кластеризация k-средних значений
Подбор кривой линейной регрессии
Сгруппированная статистика
Классификация
Смотрите Анализ Больших данных с Длинными массивами (Statistics and Machine Learning Toolbox) для получения дополнительной информации.
Когда вы выполняете вычисления на длинных массивах, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Используйте mapreducer
функционируйте, чтобы изменить среду выполнения длинных массивов при использовании Parallel Computing Toolbox, MATLAB Parallel Server или MATLAB Compiler:
Parallel Computing Toolbox — Выполните вычисления в параллельных использующих локальных или кластерных рабочих, чтобы ускорить большие вычисления длинного массива. Смотрите Длинные массивы Использования на Параллельном Пуле (Parallel Computing Toolbox) или Процесс Большие данные в Облаке (Parallel Computing Toolbox) для получения дополнительной информации.
MATLAB Parallel Server — Выполните вычисления длинного массива на кластере, включая Apache, который Spark™ включил кластерам Hadoop®. Это может значительно уменьшать время выполнения очень больших вычислений. Смотрите Длинные массивы Использования на Spark Enabled Кластер Hadoop (Parallel Computing Toolbox) для получения дополнительной информации.
MATLAB Compiler — Развертывает приложения MATLAB, содержащие длинные массивы как автономные приложения на Spark Apache. См. Приложения Spark (MATLAB Compiler) для получения дополнительной информации.
Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer
масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox, MATLAB Parallel Server или MATLAB Compiler, не будучи должен переписать ваш алгоритм.
Каждый длинный массив связан с одной средой выполнения, когда он создается с помощью tall(ds)
. Если та среда выполнения позже изменена или удалена, то длинный массив становится недопустимым.
Поэтому каждый раз, когда вы изменяете среду выполнения, необходимо восстановить длинный массив.
Database Toolbox позволяет вам составить длинную таблицу от DatabaseDatastore
это поддерживается данными в базе данных. Для получения дополнительной информации смотрите, Анализируют Большие Данные в Базе данных Используя Длинные массивы (Database Toolbox).
DatabaseDatastore
имеет эти ограничения:
DatabaseDatastore
должен использовать локальный сеанс работы с MATLAB в качестве среды выполнения. Установите эту среду с помощью команды mapreducer(0)
.
Автономные приложения, содержащие длинные массивы то использование DatabaseDatastore
не может быть развернут против Spark Apache с помощью MATLAB Compiler.
gcmr
| mapreducer
| tall