matlab.compiler.mlspark.RDD class

Пакет: matlab.compiler.mlspark
Суперклассы:

Класс интерфейса для представления Spark Resilient Distributed Dataset (RDD)

Описание

Resilient Distributed Dataset или RDD является программной абстракцией в Spark™. Он представляет набор элементов, распределенных по многим узлам, которые могут работать параллельно. Вся работа в Spark выражается либо как создание новых RDD, преобразование существующих RDD, либо как вызов операций на RDD для вычисления результата. RDD можно создать двумя способами:

  • Путем загрузки внешнего набора данных

  • Путем параллелизации набора объектов в программе драйвера

После создания можно выполнить два типа операций с помощью RDD: преобразования и действия.

Конструкция

Система координат RDD объект может быть создан только с помощью методов SparkContext класс. A набора SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext Класс для получения дополнительной информации.

Имя метода SparkContextЦель
parallelize

Создайте RDD из локального MATLAB® значения

datastoreToRDD

Преобразуйте datastore MATLAB в RDD Spark

textFile

Создайте RDD из текстового файла

После создания RDD с использованием метода из SparkContext класс, можно использовать любой из методов в RDD класс для манипулирования RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKeyАгрегируйте значения каждой клавиши, используя заданные функции объединения и нейтральное «нулевое значение»
декартовскийСоздайте RDD, который является Декартовым продуктом двух RDD
соединитьсяУменьшите количество разделов в RDD
cogroupСгруппировать данные из RDD, разделяющих один и тот же ключ
combineByKeyОбъедините элементы для каждого ключа с помощью пользовательского набора функций агрегации
отличныйВозвращает новый RDD, содержащий отдельные элементы существующего RDD
фильтрВерните новый RDD, содержащий только элементы, которые удовлетворяют предикатной функции
flatMapВерните новый RDD, сначала применив функцию ко всем элементам существующего RDD, а затем сплюснув результаты
flatMapValuesПередайте каждое значение в паре "ключ-значение" RDD через flatMap метод без изменения клавиш
foldByKeyОбъедините значения для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения»
fullOuterJoinВыполните полное внешнее соединение между двумя RDD пар "ключ-значение"
glomОбъедините все элементы в каждом разделе RDD
groupByВозврат RDD сгруппированных элементов
groupByKeyСгруппировать значения для каждого ключа в RDD в одну последовательность
пересечениеВерните заданное пересечение одного RDD с другим
соединениеВерните RDD, содержащий все пары элементов с соответствующими ключами
keyByСоздайте кортежи элементов в RDD путем применения функции
ключиВерните RDD с ключами от каждого кортежа
leftOuterJoinВыполните левое внешнее соединение
картаВерните новый RDD путем применения функции к каждому элементу входного RDD
mapValuesПередайте каждое значение в паре "ключ-значение" RDD через функцию map без изменения ключей
reduceByKeyОбъедините значения для каждого ключа с помощью ассоциативной функции сокращения
перераспределениеВерните новый RDD, который точно numPartitions разделение
rightOuterJoinВыполните правое внешнее соединение
сортировать поСортировка RDD по заданной функции
sortByKeyСортировка RDD, состоящего из пар "ключ-значение" по ключам
вычестьВерните значения, следующие из установленного различия между двумя RDD
subtractByKeyВозврат пар "ключ-значение", полученный из-за различия набора ключей между двумя RDD
объединениеВерните установленное объединение одного RDD с другим
значенияВерните RDD со значениями каждого кортежа
почтовый индексZIP один RDD с другим
zipWithIndexZIP RDD с его индексами элементов
zipWithUniqueIdZIP RDD с сгенерированными уникальными длинными идентификаторами

Действия

совокупностьАгрегируйте элементы каждого раздела и впоследствии результаты для всех разделов в одно значение
собратьсяВерните массив ячеек MATLAB, который содержит все элементы в RDD
collectAsMapВерните пары "ключ-значение" в RDD как MATLAB containers.Map объект
количествоКоличество элементов в RDD
сгибСовокупные элементы каждого раздела и последующие результаты для всех разделов
уменьшитьУменьшите элементы RDD, используя заданную коммутативную и ассоциативную функцию
reduceByKeyLocallyОбъедините значения для каждого ключа с помощью ассоциативной функции reduce, но немедленно верните результаты драйверу
saveAsKeyValueDatastoreСохраните RDD со значением ключа как двоичный файл, который можно считать обратно с помощью datastore функция
saveAsTallDatastoreСохраните RDD как длинный массив MATLAB в двоичный файл, который можно считать обратно с помощью datastore функция
saveAsTextFileСохраните RDD как текстовый файл

Операции

кэшСохраните RDD в памяти
контрольная точкаОтметьте RDD для выгрузки
getCheckpointFileПолучите имя файла, в который проверяется RDD
getDefaultReducePartitionsПолучите количество сокращенных разделов по умолчанию в RDD
getNumPartitionsВозвращает количество разделов в RDD
isEmptyОпределите, содержит ли RDD какие-либо элементы
keyLimitВозвращает порог уникальных ключей, которые могут храниться перед разливом на диск
упорствоватьУстановите значение уровня хранения RDD, чтобы оно сохранялось во всех операциях после вычисления
toDebugStringПолучите описание RDD и его рекурсивных зависимостей для отладки
не упорствоватьПометьте RDD как неперсистентный, удалите все блоки для него из памяти и диска

Подробнее о

расширить все

Ссылки

Для получения дополнительной информации см. последнюю документацию Spark.

Введенный в R2016b