Пакет: matlab.compiler.mlspark
Суперклассы:
Интерфейсный класс, чтобы представлять Эластичный распределенный набор данных (RDD) Spark
Resilient Distributed Dataset или RDD являются абстракцией программирования в Spark™. Это представляет набор элементов, распределенных на многих узлах, которые могут управляться параллельно. Все работают в Spark, выражается или как создание нового RDDs, преобразование существующего RDDs или как вызов операций на RDDs, чтобы вычислить результат. Можно создать RDDs двумя способами:
Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера
После того, как созданный, два типа операций могут быть выполнены с помощью RDDs: преобразования и действия.
RDD
объект может только быть создан с помощью методов SparkContext
класс. Набор SparkContext
методы, используемые, чтобы создать RDDs, описаны ниже для удобства. См. документацию SparkContext
класс для получения дополнительной информации.
Имя метода SparkContext | Цель |
---|---|
parallelize | Создайте RDD из локальных значений MATLAB® |
datastoreToRDD | Преобразуйте MATLAB |
textFile | Создайте RDD из текстового файла |
Если RDD был создан с помощью метода из SparkContext
класс, можно использовать любой из методов в RDD
класс, чтобы управлять вашим RDD.
Свойства этого класса скрыты.
aggregateByKey | Агрегируйте значения каждого ключа, с помощью данный функции объединения и нейтральное “нулевое значение” |
декартов | Создайте RDD, который является Декартовым произведением двух RDDs |
объединить | Сократите количество разделов в RDD |
cogroup | Данные группы из RDDs совместное использование того же ключа |
combineByKey | Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации |
отличный | Возвратите новый RDD, содержащий отличные элементы существующего RDD |
фильтр | Возвратите новый RDD, содержащий только элементы, которые удовлетворяют функции предиката |
flatMap | Возвратите новый RDD первым применением функции ко всем элементам существующего RDD и затем выравнивания результатов |
flatMapValues | Передайте каждое значение в паре "ключ-значение" RDD через flatMap метод, не изменяя ключи |
foldByKey | Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального “нулевого значения” |
fullOuterJoin | Выполните полное внешнее соединение между двумя парами "ключ-значение" RDDs |
glom | Объедините все элементы в каждом разделе RDD |
groupBy | Возвратите RDD сгруппированных элементов |
groupByKey | Сгруппируйте значения для каждого ключа в RDD в одну последовательность |
пересечение | Возвратите пересечение набора одного RDD с другим |
соединение | Возвратите RDD, содержащий все пары элементов с соответствием с ключами |
keyBy | Создайте кортежи элементов в RDD путем применения функции |
ключи | Возвратите RDD с ключами каждого кортежа |
leftOuterJoin | Выполните левое внешнее соединение |
карта | Возвратите новый RDD путем применения функции к каждому элементу входа RDD |
mapValues | Передайте каждое значение в паре "ключ-значение" RDD через функцию карты, не изменяя ключи |
reduceByKey | Слияние значения для каждого ключа с помощью ассоциативного уменьшает функцию |
повторное разделение | Возвратите новый RDD, который имеет точно numPartitions разделы |
rightOuterJoin | Выполните правильное внешнее соединение |
sortBy | Сортировка RDD заданной функцией |
sortByKey | Сортировка RDD, состоящего из пар "ключ-значение" ключом |
вычитание | Возвратите значения, следующие из разности множеств двух RDDs |
subtractByKey | Возвратите пары "ключ-значение", следующие из разности множеств ключей между двумя RDDs |
объединение | Возвратите объединение набора одного RDD с другим |
значения | Возвратите RDD со значениями каждого кортежа |
zip | Архивируйте один RDD с другим |
zipWithIndex | Архивируйте RDD с его индексами элемента |
zipWithUniqueId | Архивируйте RDD со сгенерированными уникальными Длинными идентификаторами |
агрегат | Агрегируйте элементы каждого раздела и впоследствии результатов для всех разделов в одно значение |
собраться | Возвратите массив ячеек MATLAB, который содержит все элементы в RDD |
collectAsMap | Возвратите пары "ключ-значение" в RDD как containers.Map MATLAB объект |
количество | Считайте число элементов в RDD |
сгиб | Совокупные элементы каждого раздела и последующих результатов для всех разделов |
уменьшать | Уменьшайте элементы RDD использование заданной коммутативной и ассоциативной функции |
reduceByKeyLocally | Объедините значения для каждого ключа с помощью ассоциативного, уменьшают функцию, но сразу возвращают результаты к драйверу |
saveAsKeyValueDatastore | Сохраните значение ключа RDD как двоичный файл, который может быть считан назад с помощью datastore функция |
saveAsTallDatastore | Сохраните RDD как длинный массив MATLAB к двоичному файлу, который может быть считан назад с помощью datastore функция |
saveAsTextFile | Сохраните RDD как текстовый файл |
кэш | Сохраните RDD в памяти |
контрольная точка | Отметьте RDD для выгрузки |
getCheckpointFile | Получите имя файла, к которому отмечается контрольной точкой RDD |
getDefaultReducePartitions | Доберитесь количество значения по умолчанию уменьшают разделы в RDD |
getNumPartitions | Возвратите количество разделов в RDD |
isempty | Определите, содержит ли RDD какие-либо элементы |
keyLimit | Возвратите порог уникальных ключей, которые могут храниться прежде, чем двигаться потоком к диску |
сохраниться | Установите значение уровня хранения RDD, чтобы сохраниться через операции после того, как оно будет вычислено |
toDebugString | Получите описание RDD и его рекурсивных зависимостей для отладки |
не сохраниться | Отметьте RDD как нестойкий, удалите все блоки для него из памяти и диска |
См. последнюю документацию Spark для получения дополнительной информации.