matlab.compiler.mlspark.RDD class

Пакет: matlab.compiler.mlspark
Суперклассы:

Класс интерфейса для представления Spark Resilient Distributed Dataset (RDD)

Описание

Resilient Distributed Dataset или RDD является программной абстракцией в Spark™. Он представляет набор элементов, распределенных по многим узлам, которые могут работать параллельно. Вся работа в Spark выражается либо как создание новых RDD, преобразование существующих RDD, либо как вызов операций на RDD для вычисления результата. RDD можно создать двумя способами:

Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера

После создания можно выполнить два типа операций с помощью RDD: преобразования и действия.

Конструкция

Система координат RDD объект может быть создан только с помощью методов SparkContext класс. A набора SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext Класс для получения дополнительной информации.

Имя метода SparkContext	Цель
`parallelize`	Создайте RDD из локального MATLAB^® значения
`datastoreToRDD`	Преобразуйте `datastore MATLAB` в `RDD Spark`
`textFile`	Создайте RDD из текстового файла

После создания RDD с использованием метода из SparkContext класс, можно использовать любой из методов в RDD класс для манипулирования RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKey	Агрегируйте значения каждой клавиши, используя заданные функции объединения и нейтральное «нулевое значение»
декартовский	Создайте RDD, который является Декартовым продуктом двух RDD
соединиться	Уменьшите количество разделов в RDD
cogroup	Сгруппировать данные из RDD, разделяющих один и тот же ключ
combineByKey	Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации
отличный	Возвращает новый RDD, содержащий отдельные элементы существующего RDD
фильтр	Верните новый RDD, содержащий только элементы, которые удовлетворяют предикатной функции
flatMap	Верните новый RDD, сначала применив функцию ко всем элементам существующего RDD, а затем сплюснув результаты
flatMapValues	Передайте каждое значение в паре "ключ-значение" RDD через `flatMap` метод без изменения клавиш
foldByKey	Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения»
fullOuterJoin	Выполните полное внешнее соединение между двумя RDD пар "ключ-значение"
glom	Объедините все элементы в каждом разделе RDD
groupBy	Возврат RDD сгруппированных элементов
groupByKey	Сгруппировать значения для каждого ключа в RDD в одну последовательность
пересечение	Верните заданное пересечение одного RDD с другим
соединение	Верните RDD, содержащий все пары элементов с соответствующими ключами
keyBy	Создайте кортежи элементов в RDD путем применения функции
ключи	Верните RDD с ключами от каждого кортежа
leftOuterJoin	Выполните левое внешнее соединение
карта	Верните новый RDD путем применения функции к каждому элементу входного RDD
mapValues	Передайте каждое значение в паре "ключ-значение" RDD через функцию map без изменения ключей
reduceByKey	Объедините значения для каждого ключа с помощью ассоциативной функции сокращения
перераспределение	Верните новый RDD, который точно `numPartitions` разделение
rightOuterJoin	Выполните правое внешнее соединение
сортировать по	Сортировка RDD по заданной функции
sortByKey	Сортировка RDD, состоящего из пар "ключ-значение" по ключам
вычесть	Верните значения, следующие из установленного различия между двумя RDD
subtractByKey	Возврат пар "ключ-значение", полученный из-за различия набора ключей между двумя RDD
объединение	Верните установленное объединение одного RDD с другим
значения	Верните RDD со значениями каждого кортежа
почтовый индекс	ZIP один RDD с другим
zipWithIndex	ZIP RDD с его индексами элементов
zipWithUniqueId	ZIP RDD с сгенерированными уникальными длинными идентификаторами

Действия

совокупность	Агрегируйте элементы каждого раздела и впоследствии результаты для всех разделов в одно значение
собраться	Верните массив ячеек MATLAB, который содержит все элементы в RDD
collectAsMap	Верните пары "ключ-значение" в RDD как MATLAB `containers.Map` объект
количество	Количество элементов в RDD
сгиб	Совокупные элементы каждого раздела и последующие результаты для всех разделов
уменьшить	Уменьшите элементы RDD, используя заданную коммутативную и ассоциативную функцию
reduceByKeyLocally	Объедините значения для каждого ключа с помощью ассоциативной функции reduce, но немедленно верните результаты драйверу
saveAsKeyValueDatastore	Сохраните RDD со значением ключа как двоичный файл, который можно считать обратно с помощью `datastore` функция
saveAsTallDatastore	Сохраните RDD как длинный массив MATLAB в двоичный файл, который можно считать обратно с помощью `datastore` функция
saveAsTextFile	Сохраните RDD как текстовый файл

Операции

кэш	Сохраните RDD в памяти
контрольная точка	Отметьте RDD для выгрузки
getCheckpointFile	Получите имя файла, в который проверяется RDD
getDefaultReducePartitions	Получите количество сокращенных разделов по умолчанию в RDD
getNumPartitions	Возвращает количество разделов в RDD
isEmpty	Определите, содержит ли RDD какие-либо элементы
keyLimit	Возвращает порог уникальных ключей, которые могут храниться перед разливом на диск
упорствовать	Установите значение уровня хранения RDD, чтобы оно сохранялось во всех операциях после вычисления
toDebugString	Получите описание RDD и его рекурсивных зависимостей для отладки
не упорствовать	Пометьте RDD как неперсистентный, удалите все блоки для него из памяти и диска

Подробнее о

расширить все

Упругий распределенный набор данных

Resilient Distributed Dataset или RDD является программной абстракцией в Spark. Он представляет набор элементов, распределенных по многим узлам, которые могут работать параллельно. RDD, как правило, отказоустойчивы. RDD можно создать двумя способами:

Путем загрузки внешнего набора данных.
Путем параллелизации набора объектов в программе драйвера.

После создания можно выполнить два типа операций с помощью RDD: transformations и actions.

Преобразования

Transformations операции на существующем RDD, которые возвращают новый RDD. Многие, но не все, преобразования являются поэлементными операциями.

Действия

Actions вычислите конечный результат на основе RDD и либо верните этот результат в программу драйвера, либо сохраните его во внешней системе хранения данных, такой как HDFS™.

Ссылки

Для получения дополнительной информации см. последнюю документацию Spark.

Документация

matlab.compiler.mlspark.RDD class

Описание

Конструкция

Свойства

Методы

Преобразования

Действия

Операции

Подробнее о

Упругий распределенный набор данных

Преобразования

Действия

Ссылки

См. также

Классы

Темы

Документация MATLAB Compiler

Поддержка