Используемые продукты: Статистика и машинное обучение Toolbox™, База данных Toolbox™, Параллельные вычисления Toolbox™, MATLAB ® Parallel Server™, MATLAB Compiler™
Несколько панелей инструментов расширяют возможности массивов tall. Эти усовершенствования включают написание алгоритмов машинного обучения, интеграцию с системами больших данных и развертывание автономных приложений.
Набор инструментов для статистики и машинного обучения позволяет выполнять расширенные статистические вычисления в массивах tall. Возможности включают в себя:
K-означает кластеризацию
Фитинг линейной регрессии
Сгруппированная статистика
Классификация
Дополнительные сведения см. в разделе Анализ больших данных с помощью массивов Tall (Statistics and Machine Learning Toolbox).
При выполнении вычислений в массивах tall среда выполнения по умолчанию использует либо локальную сессию MATLAB, либо локальный параллельный пул при наличии панели инструментов Parallel Computing Toolbox. Используйте mapreducer для изменения среды выполнения массивов tall при использовании панели инструментов Parallel Computing Toolbox, MATLAB Parallel Server или компилятора MATLAB:
Панель инструментов Parallel Computing Toolbox - параллельное выполнение вычислений с использованием локальных или кластерных работников для ускорения вычислений больших массивов высокого уровня. Дополнительные сведения см. в разделах Использование массивов Tall в параллельном пуле (Панель параллельных вычислений) или Обработка больших данных в облаке (Панель параллельных вычислений).
Сервер Параллели MATLAB - Выполненные высокие вычисления множества на группе, включая апачский Spark™ позволили группы Hadoop®. Это может значительно сократить время выполнения очень больших вычислений. Дополнительные сведения см. в разделе Использование массивов Tall в кластере Hadoop с поддержкой искр (панель инструментов параллельных вычислений).
Компилятор MATLAB - развертывание приложений MATLAB, содержащих массивы tall, в качестве автономных приложений на Apache Spark. Дополнительные сведения см. в разделе Spark Applications (компилятор MATLAB).
Одно из преимуществ разработки алгоритмов с помощью массивов tall состоит в том, что код нужно писать только один раз. Код можно разработать локально, а затем использовать mapreducer для масштабирования и использования возможностей, предлагаемых Parallel Computing Toolbox, MATLAB Parallel Server или MATLAB Compiler, без необходимости перезаписи алгоритма.
Примечание
Каждый массив высокого уровня привязан к одной среде выполнения при его построении с использованием tall(ds). Если среда выполнения позже будет изменена или удалена, то массив tall станет недопустимым.
По этой причине при каждом изменении среды выполнения необходимо реконструировать массив высокого уровня.
Панель инструментов базы данных позволяет создавать высокие таблицы из DatabaseDatastore который поддерживается данными в базе данных. Дополнительные сведения см. в разделе Анализ больших данных в базе данных с помощью массивов Tall (панель инструментов базы данных).
Примечание
DatabaseDatastore имеет следующие ограничения:
DatabaseDatastore должен использовать локальный сеанс MATLAB в качестве среды выполнения. Установить эту среду с помощью команды mapreducer(0).
Автономные приложения, содержащие массивы tall, которые используют DatabaseDatastore невозможно развернуть против Apache Spark с помощью компилятора MATLAB.
gcmr | mapreducer | tall