Используемые продукты: статистика и машинное обучение Toolbox™, база данных Toolbox™, параллельные вычисления Toolbox™, MATLAB® Distributed Computing Server™, MATLAB Compiler™
Несколько тулбоксов улучшают возможности длинных массивов. Эти улучшения включают алгоритмы машинного обучения записи, интеграцию с большими системами передачи и обработки данных и развертывание автономных приложений.
Statistics and Machine Learning Toolbox позволяет вам выполнить усовершенствованные статистические вычисления на длинных массивах. Возможности включают:
K-средняя кластеризация
Линейный подбор кривой регрессии
Сгруппированная статистика
Классификация
Смотрите Анализ Больших данных с Длинными массивами (Statistics and Machine Learning Toolbox) для получения дополнительной информации.
Когда вы выполняете вычисления на длинных массивах, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Используйте функцию mapreducer
, чтобы изменить среду выполнения длинных массивов при использовании Parallel Computing Toolbox, MATLAB Distributed Computing Server или MATLAB Compiler:
Parallel Computing Toolbox — Выполните вычисления в параллельных использующих локальных рабочих, чтобы ускорить большие вычисления длинного массива. Смотрите Длинные массивы Использования на Параллельном Пуле (Parallel Computing Toolbox) для получения дополнительной информации.
MATLAB Distributed Computing Server — Выполните вычисления длинного массива на кластере, включая Apache, который Spark™ включил кластерам Hadoop®. Это может значительно уменьшить время выполнения очень больших вычислений. Смотрите Длинные массивы Использования на Spark Enabled Кластер Hadoop (Parallel Computing Toolbox) для получения дополнительной информации.
MATLAB Compiler — Развертывает приложения MATLAB, содержащие длинные массивы как автономные приложения на Spark Apache. См. Приложения Spark (MATLAB Compiler) для получения дополнительной информации.
Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer
, чтобы масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox, MATLAB Distributed Computing Server или MATLAB Compiler, не будучи должен переписать алгоритм.
Каждый длинный массив связан с единственной средой выполнения, когда он создается с помощью tall(ds)
. Если та среда выполнения позже изменена или удалена, то длинный массив становится недопустимым.
Поэтому каждый раз, когда вы изменяете среду выполнения, необходимо восстановить длинный массив.
Database Toolbox позволяет вам составить длинную таблицу от DatabaseDatastore
, который поддерживается данными в базе данных. Для получения дополнительной информации смотрите, Анализируют Большие Данные в Базе данных Используя Длинные массивы (Database Toolbox).
DatabaseDatastore
имеет эти ограничения:
DatabaseDatastore
должен использовать локальный сеанс работы с MATLAB в качестве среды выполнения. Установите эту среду с помощью команды mapreducer(0)
.
Автономные приложения, содержащие длинные массивы, которые используют DatabaseDatastore
, не могут быть развернуты против Spark Apache с помощью MATLAB Compiler.
gcmr
| mapreducer
| высокий