matlab.compiler.mlspark.RDD class

Пакет: matlab.compiler.mlspark
Суперклассы:

Интерфейсный класс, чтобы представлять Эластичный распределенный набор данных (RDD) Spark

Описание

Resilient Distributed Dataset или RDD являются абстракцией программирования в Spark™. Это представляет набор элементов, распределенных на многих узлах, которые могут управляться параллельно. Все работают в Spark, описывается или как создание нового RDDs, преобразование существующего RDDs или как вызов операций на RDDs, чтобы вычислить результат. Можно создать RDDs двумя способами:

Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера

После того, как созданный, два типа операций могут быть выполнены с помощью RDDs: преобразования и действия.

Конструкция

RDD объект может только быть создан с помощью методов SparkContext класс. Набор SparkContext методы, используемые, чтобы создать RDDs, описаны ниже для удобства. См. документацию SparkContext класс для получения дополнительной информации.

Имя метода SparkContext	Цель
`parallelize`	Создайте RDD из локального MATLAB^® значения
`datastoreToRDD`	Преобразуйте MATLAB `datastore` к Spark `RDD`
`textFile`	Создайте RDD из текстового файла

Если RDD был создан с помощью метода из SparkContext класс, можно использовать любой из методов в RDD класс, чтобы управлять вашим RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKey	Агрегируйте значения каждого ключа, с помощью данный функции объединения и нейтральное “нулевое значение”
декартов	Создайте RDD, который является Декартовым произведением двух RDDs
объединить	Сократите количество разделов в RDD
cogroup	Данные группы из RDDs совместное использование того же ключа
combineByKey	Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации
отличный	Возвратите новый RDD, содержащий отличные элементы существующего RDD
фильтр	Возвратите новый RDD, содержащий только элементы, которые удовлетворяют функции предиката
flatMap	Возвратите новый RDD первым применением функции ко всем элементам существующего RDD и затем выравнивания результатов
flatMapValues	Передайте каждое значение в паре "ключ-значение" RDD через `flatMap` метод, не изменяя ключи
foldByKey	Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального “нулевого значения”
fullOuterJoin	Выполните полное внешнее соединение между двумя парами "ключ-значение" RDDs
glom	Объедините все элементы в каждом разделе RDD
groupBy	Возвратите RDD сгруппированных элементов
groupByKey	Сгруппируйте значения для каждого ключа в RDD в одну последовательность
пересечение	Возвратите пересечение набора одного RDD с другим
соединение	Возвратите RDD, содержащий все пары элементов с соответствием с ключами
keyBy	Создайте кортежи элементов в RDD путем применения функции
ключи	Возвратите RDD с ключами каждого кортежа
leftOuterJoin	Выполните левое внешнее соединение
карта	Возвратите новый RDD путем применения функции к каждому элементу входа RDD
mapValues	Передайте каждое значение в паре "ключ-значение" RDD через функцию карты, не изменяя ключи
reduceByKey	Слияние значения для каждого ключа с помощью ассоциативного уменьшает функцию
повторное разделение	Возвратите новый RDD, который имеет точно `numPartitions` разделы
rightOuterJoin	Выполните правильное внешнее соединение
sortBy	Сортировка RDD заданной функцией
sortByKey	Сортировка RDD, состоящего из пар "ключ-значение" ключом
вычитание	Возвратите значения, следующие из разности множеств двух RDDs
subtractByKey	Возвратите пары "ключ-значение", следующие из разности множеств ключей между двумя RDDs
объединение	Возвратите объединение набора одного RDD с другим
значения	Возвратите RDD со значениями каждого кортежа
zip	Архивируйте один RDD с другим
zipWithIndex	Архивируйте RDD с его индексами элемента
zipWithUniqueId	Архивируйте RDD со сгенерированными уникальными Длинными идентификаторами

Действия

агрегат	Агрегируйте элементы каждого раздела и впоследствии результатов для всех разделов в одно значение
собраться	Возвратите массив ячеек MATLAB, который содержит все элементы в RDD
collectAsMap	Возвратите пары "ключ-значение" в RDD как `containers.Map` MATLAB объект
количество	Считайте число элементов в RDD
сгиб	Совокупные элементы каждого раздела и последующих результатов для всех разделов
уменьшать	Уменьшайте элементы RDD использование заданной коммутативной и ассоциативной функции
reduceByKeyLocally	Объедините значения для каждого ключа с помощью ассоциативного, уменьшают функцию, но сразу возвращают результаты к драйверу
saveAsKeyValueDatastore	Сохраните значение ключа RDD как двоичный файл, который может быть считан назад с помощью `datastore` функция
saveAsTallDatastore	Сохраните RDD как длинный массив MATLAB к двоичному файлу, который может быть считан назад с помощью `datastore` функция
saveAsTextFile	Сохраните RDD как текстовый файл

Операции

кэш	Сохраните RDD в памяти
контрольная точка	Отметьте RDD для выгрузки
getCheckpointFile	Получите имя файла, к которому отмечается контрольной точкой RDD
getDefaultReducePartitions	Доберитесь количество значения по умолчанию уменьшают разделы в RDD
getNumPartitions	Возвратите количество разделов в RDD
isempty	Определите, содержит ли RDD какие-либо элементы
keyLimit	Возвратите порог уникальных ключей, которые могут храниться прежде, чем двигаться потоком к диску
сохраниться	Установите значение уровня хранения RDD, чтобы сохраниться через операции после того, как оно будет вычислено
toDebugString	Получите описание RDD и его рекурсивных зависимостей для отладки
не сохраниться	Отметьте RDD как нестойкий, удалите все блоки для него из памяти и диска

Больше о

развернуть все

Эластичный распределенный набор данных

Resilient Distributed Dataset или RDD являются абстракцией программирования в Spark. Это представляет набор элементов, распределенных на многих узлах, которые могут управляться параллельно. RDDs имеют тенденцию быть отказоустойчивыми. Можно создать RDDs двумя способами:

Путем загрузки внешнего набора данных.
Путем параллелизации набора объектов в программе драйвера.

После создания можно выполнить два типа операций с помощью RDDs: transformations и actions.

Преобразования

Transformations является операциями на существующем RDD, которые возвращают новый RDD. Многие, но не все, преобразования являются поэлементными операциями.

Действия

Actions вычисляет конечный результат на основе RDD и или возвращает тот результат к программе драйвера или сохраняет его во внешнюю систему хранения, такую как HDFS™.

Ссылки

См. последнюю документацию Spark для получения дополнительной информации.

Документация

matlab.compiler.mlspark.RDD class

Описание

Конструкция

Свойства

Методы

Преобразования

Действия

Операции

Больше о

Эластичный распределенный набор данных

Преобразования

Действия

Ссылки

Смотрите также

Классы

Темы

Документация MATLAB Compiler

Поддержка