exponenta event banner

класс matlab.compiler.mlspark.RDD

Пакет: matlab.compiler.mlspark
Суперклассы:

Класс интерфейса для представления отказоустойчивого распределенного набора данных (RDD)

Описание

Отказоустойчивый распределенный набор данных или RDD - это абстракция программирования в Spark™. Он представляет собой совокупность элементов, распределенных по множеству узлов, которые могут работать параллельно. Вся работа в Spark выражается как создание новых RDD, преобразование существующих RDD или вызов операций над RDD для вычисления результата. RDD можно создавать двумя способами:

  • Путем загрузки внешнего набора данных

  • Распараллеливание набора объектов в программе драйвера

После создания с помощью РДД можно выполнять два типа операций: преобразования и действия.

Строительство

Один RDD объект может быть создан только с помощью методов SparkContext класс. Коллекция SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext для получения дополнительной информации.

Имя метода SparkContextЦель
parallelize

Создание RDD из локальных значений MATLAB ®

datastoreToRDD

Преобразование MATLAB datastore в искру RDD

textFile

Создание RDD из текстового файла

После создания RDD с использованием метода из SparkContext , вы можете использовать любой из методов в RDD для управления RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKeyАгрегировать значения каждого ключа, используя заданные функции комбинирования и нейтральное «нулевое значение»
декартовскийСоздание RDD, который является декартовым продуктом двух RDD
соединитьсяУменьшение количества разделов в RDD
cogroupГруппировать данные из RDD, совместно использующих один и тот же ключ
combineByKeyОбъединение элементов для каждого ключа с помощью пользовательского набора функций агрегации
отличныйВозврат нового RDD, содержащего отдельные элементы существующего RDD
фильтрВозврат нового RDD, содержащего только элементы, удовлетворяющие предикатной функции
flatMapВозврат нового RDD путем применения функции ко всем элементам существующего RDD, а затем сведения результатов
flatMapValuesПередача каждого значения в паре ключ-значение RDD через flatMap метод без изменения ключей
foldByKeyОбъединение значений для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения»
fullOuterJoinВыполнение полного внешнего соединения между двумя парами ключей и значений RDD
glomОбъединение всех элементов в каждом разделе RDD
groupByВозврат RDD сгруппированных элементов
groupByKeyГруппировать значения для каждого ключа в RDD в одну последовательность
пересечениеВозврат установленного пересечения одного РДД с другим
соединениеВозврат RDD, содержащего все пары элементов с соответствующими ключами
keyByСоздание кортежей элементов в RDD путем применения функции
ключиВозврат RDD с ключами каждого кортежа
leftOuterJoinВыполнить левое внешнее соединение
картаВозврат нового RDD путем применения функции к каждому элементу входного RDD
mapValuesПередача каждого значения в паре ключ-значение RDD через функцию отображения без изменения клавиш
reduceByKeyОбъединение значений для каждого ключа с помощью ассоциативной функции уменьшения
перераспределениеВернуть новый RDD, содержащий именно numPartitions разделение
rightOuterJoinВыполнить правое внешнее соединение
сортировать поСортировка RDD по заданной функции
sortByKeyСортировка РДД, состоящих из пар ключ-значение по ключу
вычестьВозвращает значения, полученные в результате установленной разницы между двумя RDD
subtractByKeyВозвращаемые пары «ключ-значение» в результате установленной разности клавиш между двумя RDD
союзВозврат соединения аппарата одного RDD с другим
ценностиВозврат RDD со значениями каждого кортежа
почтовый индексZip один RDD с другим
zipWithIndexZIP RDD с индексами элементов
zipWithUniqueIdZIP RDD с созданными уникальными длинными идентификаторами

Действия

совокупностьОбъединение элементов каждой секции и результатов для всех секций в одно значение
собратьсяВозврат массива ячеек MATLAB, содержащего все элементы в RDD
collectAsMapВозврат пар ключ-значение в RDD в виде MATLAB containers.Map объект
количествоКоличество элементов в RDD
сгибАгрегирование элементов каждой секции и последующих результатов для всех секций
уменьшитьУменьшение элементов РДД с помощью указанной коммутативной и ассоциативной функции
reduceByKeyLocallyОбъединение значений для каждого ключа с помощью ассоциативной функции уменьшения, но немедленное возвращение результатов в драйвер
saveAsKeyValueDatastoreСохранить значение ключа RDD как двоичный файл, который можно прочитать с помощью datastore функция
saveAsTallDatastoreСохраните RDD как массив уровня MATLAB в двоичном файле, который можно прочитать с помощью datastore функция
saveAsTextFileСохранить RDD как текстовый файл

Операции

тайникХранить RDD в памяти
контрольно-пропускной пунктПометить RDD для контрольных точек
getCheckpointFileПолучение имени файла, в который устанавливается контрольная точка RDD
getDefaultReducePartitionsПолучение количества разделов сокращения по умолчанию в RDD
getNumPartitionsВозвращает количество разделов в RDD
isEmptyОпределите, содержит ли RDD какие-либо элементы
keyLimitВозвращаемое пороговое значение уникальных ключей, которые могут быть сохранены до разлива на диск
упорствоватьУстановка значения уровня хранения данных RDD, сохраняющегося во всех операциях после его вычисления
toDebugStringПолучение описания RDD и его рекурсивных зависимостей для отладки
не упорствоватьПометить RDD как несуществующий, удалить все его блоки из памяти и диска

Подробнее

развернуть все

Ссылки

Дополнительные сведения см. в последней документации по Spark.

Представлен в R2016b