Пакет: matlab.compiler.mlspark
Суперклассы:
Интерфейсный класс, чтобы представлять Эластичный распределенный набор данных (RDD) Spark
Resilient Distributed Dataset или RDD являются абстракцией программирования в Spark™. Это представляет набор элементов, распределенных на многих узлах, которые могут управляться параллельно. Все работают в Spark, описывается или как создание нового RDDs, преобразование существующего RDDs или как вызов операций на RDDs, чтобы вычислить результат. Можно создать RDDs двумя способами:
Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера
После того, как созданный, два типа операций могут быть выполнены с помощью RDDs: преобразования и действия.
RDD объект может только быть создан с помощью методов SparkContext класс. Набор SparkContext методы, используемые, чтобы создать RDDs, описаны ниже для удобства. См. документацию SparkContext класс для получения дополнительной информации.
| Имя метода SparkContext | Цель |
|---|---|
parallelize | Создайте RDD из локального MATLAB® значения |
datastoreToRDD | Преобразуйте MATLAB |
textFile | Создайте RDD из текстового файла |
Если RDD был создан с помощью метода из SparkContext класс, можно использовать любой из методов в RDD класс, чтобы управлять вашим RDD.
Свойства этого класса скрыты.
| aggregateByKey | Агрегируйте значения каждого ключа, с помощью данный функции объединения и нейтральное “нулевое значение” |
| декартов | Создайте RDD, который является Декартовым произведением двух RDDs |
| объединить | Сократите количество разделов в RDD |
| cogroup | Данные группы из RDDs совместное использование того же ключа |
| combineByKey | Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации |
| отличный | Возвратите новый RDD, содержащий отличные элементы существующего RDD |
| фильтр | Возвратите новый RDD, содержащий только элементы, которые удовлетворяют функции предиката |
| flatMap | Возвратите новый RDD первым применением функции ко всем элементам существующего RDD и затем выравнивания результатов |
| flatMapValues | Передайте каждое значение в паре "ключ-значение" RDD через flatMap метод, не изменяя ключи |
| foldByKey | Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального “нулевого значения” |
| fullOuterJoin | Выполните полное внешнее соединение между двумя парами "ключ-значение" RDDs |
| glom | Объедините все элементы в каждом разделе RDD |
| groupBy | Возвратите RDD сгруппированных элементов |
| groupByKey | Сгруппируйте значения для каждого ключа в RDD в одну последовательность |
| пересечение | Возвратите пересечение набора одного RDD с другим |
| соединение | Возвратите RDD, содержащий все пары элементов с соответствием с ключами |
| keyBy | Создайте кортежи элементов в RDD путем применения функции |
| ключи | Возвратите RDD с ключами каждого кортежа |
| leftOuterJoin | Выполните левое внешнее соединение |
| карта | Возвратите новый RDD путем применения функции к каждому элементу входа RDD |
| mapValues | Передайте каждое значение в паре "ключ-значение" RDD через функцию карты, не изменяя ключи |
| reduceByKey | Слияние значения для каждого ключа с помощью ассоциативного уменьшает функцию |
| повторное разделение | Возвратите новый RDD, который имеет точно numPartitions разделы |
| rightOuterJoin | Выполните правильное внешнее соединение |
| sortBy | Сортировка RDD заданной функцией |
| sortByKey | Сортировка RDD, состоящего из пар "ключ-значение" ключом |
| вычитание | Возвратите значения, следующие из разности множеств двух RDDs |
| subtractByKey | Возвратите пары "ключ-значение", следующие из разности множеств ключей между двумя RDDs |
| объединение | Возвратите объединение набора одного RDD с другим |
| значения | Возвратите RDD со значениями каждого кортежа |
| zip | Архивируйте один RDD с другим |
| zipWithIndex | Архивируйте RDD с его индексами элемента |
| zipWithUniqueId | Архивируйте RDD со сгенерированными уникальными Длинными идентификаторами |
| агрегат | Агрегируйте элементы каждого раздела и впоследствии результатов для всех разделов в одно значение |
| собраться | Возвратите массив ячеек MATLAB, который содержит все элементы в RDD |
| collectAsMap | Возвратите пары "ключ-значение" в RDD как containers.Map MATLAB объект |
| количество | Считайте число элементов в RDD |
| сгиб | Совокупные элементы каждого раздела и последующих результатов для всех разделов |
| уменьшать | Уменьшайте элементы RDD использование заданной коммутативной и ассоциативной функции |
| reduceByKeyLocally | Объедините значения для каждого ключа с помощью ассоциативного, уменьшают функцию, но сразу возвращают результаты к драйверу |
| saveAsKeyValueDatastore | Сохраните значение ключа RDD как двоичный файл, который может быть считан назад с помощью datastore функция |
| saveAsTallDatastore | Сохраните RDD как длинный массив MATLAB к двоичному файлу, который может быть считан назад с помощью datastore функция |
| saveAsTextFile | Сохраните RDD как текстовый файл |
| кэш | Сохраните RDD в памяти |
| контрольная точка | Отметьте RDD для выгрузки |
| getCheckpointFile | Получите имя файла, к которому отмечается контрольной точкой RDD |
| getDefaultReducePartitions | Доберитесь количество значения по умолчанию уменьшают разделы в RDD |
| getNumPartitions | Возвратите количество разделов в RDD |
| isempty | Определите, содержит ли RDD какие-либо элементы |
| keyLimit | Возвратите порог уникальных ключей, которые могут храниться прежде, чем двигаться потоком к диску |
| сохраниться | Установите значение уровня хранения RDD, чтобы сохраниться через операции после того, как оно будет вычислено |
| toDebugString | Получите описание RDD и его рекурсивных зависимостей для отладки |
| не сохраниться | Отметьте RDD как нестойкий, удалите все блоки для него из памяти и диска |
См. последнюю документацию Spark для получения дополнительной информации.