класс matlab.compiler.mlspark.RDD

Пакет: matlab.compiler.mlspark
Суперклассы:

Класс интерфейса для представления отказоустойчивого распределенного набора данных (RDD)

Описание

Отказоустойчивый распределенный набор данных или RDD - это абстракция программирования в Spark™. Он представляет собой совокупность элементов, распределенных по множеству узлов, которые могут работать параллельно. Вся работа в Spark выражается как создание новых RDD, преобразование существующих RDD или вызов операций над RDD для вычисления результата. RDD можно создавать двумя способами:

Путем загрузки внешнего набора данных
Распараллеливание набора объектов в программе драйвера

После создания с помощью РДД можно выполнять два типа операций: преобразования и действия.

Строительство

Один RDD объект может быть создан только с помощью методов SparkContext класс. Коллекция SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext для получения дополнительной информации.

Имя метода SparkContext	Цель
`parallelize`	Создание RDD из локальных значений MATLAB ®
`datastoreToRDD`	Преобразование MATLAB `datastore` в искру `RDD`
`textFile`	Создание RDD из текстового файла

После создания RDD с использованием метода из SparkContext , вы можете использовать любой из методов в RDD для управления RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKey	Агрегировать значения каждого ключа, используя заданные функции комбинирования и нейтральное «нулевое значение»
декартовский	Создание RDD, который является декартовым продуктом двух RDD
соединиться	Уменьшение количества разделов в RDD
cogroup	Группировать данные из RDD, совместно использующих один и тот же ключ
combineByKey	Объединение элементов для каждого ключа с помощью пользовательского набора функций агрегации
отличный	Возврат нового RDD, содержащего отдельные элементы существующего RDD
фильтр	Возврат нового RDD, содержащего только элементы, удовлетворяющие предикатной функции
flatMap	Возврат нового RDD путем применения функции ко всем элементам существующего RDD, а затем сведения результатов
flatMapValues	Передача каждого значения в паре ключ-значение RDD через `flatMap` метод без изменения ключей
foldByKey	Объединение значений для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения»
fullOuterJoin	Выполнение полного внешнего соединения между двумя парами ключей и значений RDD
glom	Объединение всех элементов в каждом разделе RDD
groupBy	Возврат RDD сгруппированных элементов
groupByKey	Группировать значения для каждого ключа в RDD в одну последовательность
пересечение	Возврат установленного пересечения одного РДД с другим
соединение	Возврат RDD, содержащего все пары элементов с соответствующими ключами
keyBy	Создание кортежей элементов в RDD путем применения функции
ключи	Возврат RDD с ключами каждого кортежа
leftOuterJoin	Выполнить левое внешнее соединение
карта	Возврат нового RDD путем применения функции к каждому элементу входного RDD
mapValues	Передача каждого значения в паре ключ-значение RDD через функцию отображения без изменения клавиш
reduceByKey	Объединение значений для каждого ключа с помощью ассоциативной функции уменьшения
перераспределение	Вернуть новый RDD, содержащий именно `numPartitions` разделение
rightOuterJoin	Выполнить правое внешнее соединение
сортировать по	Сортировка RDD по заданной функции
sortByKey	Сортировка РДД, состоящих из пар ключ-значение по ключу
вычесть	Возвращает значения, полученные в результате установленной разницы между двумя RDD
subtractByKey	Возвращаемые пары «ключ-значение» в результате установленной разности клавиш между двумя RDD
союз	Возврат соединения аппарата одного RDD с другим
ценности	Возврат RDD со значениями каждого кортежа
почтовый индекс	Zip один RDD с другим
zipWithIndex	ZIP RDD с индексами элементов
zipWithUniqueId	ZIP RDD с созданными уникальными длинными идентификаторами

Действия

совокупность	Объединение элементов каждой секции и результатов для всех секций в одно значение
собраться	Возврат массива ячеек MATLAB, содержащего все элементы в RDD
collectAsMap	Возврат пар ключ-значение в RDD в виде MATLAB `containers.Map` объект
количество	Количество элементов в RDD
сгиб	Агрегирование элементов каждой секции и последующих результатов для всех секций
уменьшить	Уменьшение элементов РДД с помощью указанной коммутативной и ассоциативной функции
reduceByKeyLocally	Объединение значений для каждого ключа с помощью ассоциативной функции уменьшения, но немедленное возвращение результатов в драйвер
saveAsKeyValueDatastore	Сохранить значение ключа RDD как двоичный файл, который можно прочитать с помощью `datastore` функция
saveAsTallDatastore	Сохраните RDD как массив уровня MATLAB в двоичном файле, который можно прочитать с помощью `datastore` функция
saveAsTextFile	Сохранить RDD как текстовый файл

Операции

тайник	Хранить RDD в памяти
контрольно-пропускной пункт	Пометить RDD для контрольных точек
getCheckpointFile	Получение имени файла, в который устанавливается контрольная точка RDD
getDefaultReducePartitions	Получение количества разделов сокращения по умолчанию в RDD
getNumPartitions	Возвращает количество разделов в RDD
isEmpty	Определите, содержит ли RDD какие-либо элементы
keyLimit	Возвращаемое пороговое значение уникальных ключей, которые могут быть сохранены до разлива на диск
упорствовать	Установка значения уровня хранения данных RDD, сохраняющегося во всех операциях после его вычисления
toDebugString	Получение описания RDD и его рекурсивных зависимостей для отладки
не упорствовать	Пометить RDD как несуществующий, удалить все его блоки из памяти и диска

Подробнее

развернуть все

Отказоустойчивый распределенный набор данных

Отказоустойчивый распределенный набор данных или RDD - это абстракция программирования в Spark. Он представляет собой совокупность элементов, распределенных по множеству узлов, которые могут работать параллельно. RDD, как правило, отказоустойчивы. RDD можно создавать двумя способами:

Путем загрузки внешнего набора данных.
Путем распараллеливания набора объектов в программе драйвера.

После создания с помощью РДД можно выполнять два типа операций: преобразования и действия.

Преобразования

Преобразования - это операции с существующим RDD, которые возвращают новый RDD. Многие, но не все, преобразования - это элементарные операции.

Действия

Действия вычисляют конечный результат на основе RDD и либо возвращают этот результат в программу драйвера, либо сохраняют его во внешней системе хранения данных, такой как HDFS™.

Ссылки

Дополнительные сведения см. в последней документации по Spark.

Документация

класс matlab.compiler.mlspark.RDD

Описание

Строительство

Свойства

Методы

Преобразования

Действия

Операции

Подробнее

Отказоустойчивый распределенный набор данных

Преобразования

Действия

Ссылки

См. также

Классы

Темы

Документация по компилятору MATLAB

Поддержка