matlab.compiler.mlspark.RDD class

Пакет: matlab.compiler.mlspark
Суперклассы:

Интерфейсный класс, чтобы представлять Эластичный распределенный набор данных (RDD) Spark

Описание

Resilient Distributed Dataset или RDD являются абстракцией программирования в Spark™. Это представляет набор элементов, распределенных на многих узлах, которые могут управляться параллельно. Все работают в Spark, описывается или как создание нового RDDs, преобразование существующего RDDs или как вызов операций на RDDs, чтобы вычислить результат. Можно создать RDDs двумя способами:

  • Путем загрузки внешнего набора данных

  • Путем параллелизации набора объектов в программе драйвера

После того, как созданный, два типа операций могут быть выполнены с помощью RDDs: преобразования и действия.

Конструкция

RDD объект может только быть создан с помощью методов SparkContext класс. Набор SparkContext методы, используемые, чтобы создать RDDs, описаны ниже для удобства. См. документацию SparkContext класс для получения дополнительной информации.

Имя метода SparkContextЦель
parallelize

Создайте RDD из локального MATLAB® значения

datastoreToRDD

Преобразуйте MATLAB datastore к Spark RDD

textFile

Создайте RDD из текстового файла

Если RDD был создан с помощью метода из SparkContext класс, можно использовать любой из методов в RDD класс, чтобы управлять вашим RDD.

Свойства

Свойства этого класса скрыты.

Методы

Преобразования

aggregateByKeyАгрегируйте значения каждого ключа, с помощью данный функции объединения и нейтральное “нулевое значение”
декартовСоздайте RDD, который является Декартовым произведением двух RDDs
объединитьСократите количество разделов в RDD
cogroupДанные группы из RDDs совместное использование того же ключа
combineByKeyОбъедините элементы для каждого ключа с помощью пользовательского набора функций агрегации
отличныйВозвратите новый RDD, содержащий отличные элементы существующего RDD
фильтрВозвратите новый RDD, содержащий только элементы, которые удовлетворяют функции предиката
flatMapВозвратите новый RDD первым применением функции ко всем элементам существующего RDD и затем выравнивания результатов
flatMapValuesПередайте каждое значение в паре "ключ-значение" RDD через flatMap метод, не изменяя ключи
foldByKeyОбъедините значения для каждого ключа с помощью ассоциативной функции и нейтрального “нулевого значения”
fullOuterJoinВыполните полное внешнее соединение между двумя парами "ключ-значение" RDDs
glomОбъедините все элементы в каждом разделе RDD
groupByВозвратите RDD сгруппированных элементов
groupByKeyСгруппируйте значения для каждого ключа в RDD в одну последовательность
пересечениеВозвратите пересечение набора одного RDD с другим
соединениеВозвратите RDD, содержащий все пары элементов с соответствием с ключами
keyByСоздайте кортежи элементов в RDD путем применения функции
ключиВозвратите RDD с ключами каждого кортежа
leftOuterJoinВыполните левое внешнее соединение
картаВозвратите новый RDD путем применения функции к каждому элементу входа RDD
mapValuesПередайте каждое значение в паре "ключ-значение" RDD через функцию карты, не изменяя ключи
reduceByKeyСлияние значения для каждого ключа с помощью ассоциативного уменьшает функцию
повторное разделениеВозвратите новый RDD, который имеет точно numPartitions разделы
rightOuterJoinВыполните правильное внешнее соединение
sortByСортировка RDD заданной функцией
sortByKeyСортировка RDD, состоящего из пар "ключ-значение" ключом
вычитаниеВозвратите значения, следующие из разности множеств двух RDDs
subtractByKeyВозвратите пары "ключ-значение", следующие из разности множеств ключей между двумя RDDs
объединениеВозвратите объединение набора одного RDD с другим
значенияВозвратите RDD со значениями каждого кортежа
zipАрхивируйте один RDD с другим
zipWithIndexАрхивируйте RDD с его индексами элемента
zipWithUniqueIdАрхивируйте RDD со сгенерированными уникальными Длинными идентификаторами

Действия

агрегатАгрегируйте элементы каждого раздела и впоследствии результатов для всех разделов в одно значение
собратьсяВозвратите массив ячеек MATLAB, который содержит все элементы в RDD
collectAsMapВозвратите пары "ключ-значение" в RDD как containers.Map MATLAB объект
количествоСчитайте число элементов в RDD
сгибСовокупные элементы каждого раздела и последующих результатов для всех разделов
уменьшатьУменьшайте элементы RDD использование заданной коммутативной и ассоциативной функции
reduceByKeyLocallyОбъедините значения для каждого ключа с помощью ассоциативного, уменьшают функцию, но сразу возвращают результаты к драйверу
saveAsKeyValueDatastoreСохраните значение ключа RDD как двоичный файл, который может быть считан назад с помощью datastore функция
saveAsTallDatastoreСохраните RDD как длинный массив MATLAB к двоичному файлу, который может быть считан назад с помощью datastore функция
saveAsTextFileСохраните RDD как текстовый файл

Операции

кэшСохраните RDD в памяти
контрольная точкаОтметьте RDD для выгрузки
getCheckpointFileПолучите имя файла, к которому отмечается контрольной точкой RDD
getDefaultReducePartitionsДоберитесь количество значения по умолчанию уменьшают разделы в RDD
getNumPartitionsВозвратите количество разделов в RDD
isemptyОпределите, содержит ли RDD какие-либо элементы
keyLimitВозвратите порог уникальных ключей, которые могут храниться прежде, чем двигаться потоком к диску
сохранитьсяУстановите значение уровня хранения RDD, чтобы сохраниться через операции после того, как оно будет вычислено
toDebugStringПолучите описание RDD и его рекурсивных зависимостей для отладки
не сохранитьсяОтметьте RDD как нестойкий, удалите все блоки для него из памяти и диска

Больше о

развернуть все

Ссылки

См. последнюю документацию Spark для получения дополнительной информации.

Введенный в R2017b