Пакет: matlab.compiler.mlspark
Суперклассы:
Класс интерфейса для представления отказоустойчивого распределенного набора данных (RDD)
Отказоустойчивый распределенный набор данных или RDD - это абстракция программирования в Spark™. Он представляет собой совокупность элементов, распределенных по множеству узлов, которые могут работать параллельно. Вся работа в Spark выражается как создание новых RDD, преобразование существующих RDD или вызов операций над RDD для вычисления результата. RDD можно создавать двумя способами:
Путем загрузки внешнего набора данных
Распараллеливание набора объектов в программе драйвера
После создания с помощью РДД можно выполнять два типа операций: преобразования и действия.
Один RDD объект может быть создан только с помощью методов SparkContext класс. Коллекция SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext для получения дополнительной информации.
| Имя метода SparkContext | Цель |
|---|---|
parallelize | Создание RDD из локальных значений MATLAB ® |
datastoreToRDD | Преобразование MATLAB |
textFile | Создание RDD из текстового файла |
После создания RDD с использованием метода из SparkContext , вы можете использовать любой из методов в RDD для управления RDD.
Свойства этого класса скрыты.
| aggregateByKey | Агрегировать значения каждого ключа, используя заданные функции комбинирования и нейтральное «нулевое значение» |
| декартовский | Создание RDD, который является декартовым продуктом двух RDD |
| соединиться | Уменьшение количества разделов в RDD |
| cogroup | Группировать данные из RDD, совместно использующих один и тот же ключ |
| combineByKey | Объединение элементов для каждого ключа с помощью пользовательского набора функций агрегации |
| отличный | Возврат нового RDD, содержащего отдельные элементы существующего RDD |
| фильтр | Возврат нового RDD, содержащего только элементы, удовлетворяющие предикатной функции |
| flatMap | Возврат нового RDD путем применения функции ко всем элементам существующего RDD, а затем сведения результатов |
| flatMapValues | Передача каждого значения в паре ключ-значение RDD через flatMap метод без изменения ключей |
| foldByKey | Объединение значений для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения» |
| fullOuterJoin | Выполнение полного внешнего соединения между двумя парами ключей и значений RDD |
| glom | Объединение всех элементов в каждом разделе RDD |
| groupBy | Возврат RDD сгруппированных элементов |
| groupByKey | Группировать значения для каждого ключа в RDD в одну последовательность |
| пересечение | Возврат установленного пересечения одного РДД с другим |
| соединение | Возврат RDD, содержащего все пары элементов с соответствующими ключами |
| keyBy | Создание кортежей элементов в RDD путем применения функции |
| ключи | Возврат RDD с ключами каждого кортежа |
| leftOuterJoin | Выполнить левое внешнее соединение |
| карта | Возврат нового RDD путем применения функции к каждому элементу входного RDD |
| mapValues | Передача каждого значения в паре ключ-значение RDD через функцию отображения без изменения клавиш |
| reduceByKey | Объединение значений для каждого ключа с помощью ассоциативной функции уменьшения |
| перераспределение | Вернуть новый RDD, содержащий именно numPartitions разделение |
| rightOuterJoin | Выполнить правое внешнее соединение |
| сортировать по | Сортировка RDD по заданной функции |
| sortByKey | Сортировка РДД, состоящих из пар ключ-значение по ключу |
| вычесть | Возвращает значения, полученные в результате установленной разницы между двумя RDD |
| subtractByKey | Возвращаемые пары «ключ-значение» в результате установленной разности клавиш между двумя RDD |
| союз | Возврат соединения аппарата одного RDD с другим |
| ценности | Возврат RDD со значениями каждого кортежа |
| почтовый индекс | Zip один RDD с другим |
| zipWithIndex | ZIP RDD с индексами элементов |
| zipWithUniqueId | ZIP RDD с созданными уникальными длинными идентификаторами |
| совокупность | Объединение элементов каждой секции и результатов для всех секций в одно значение |
| собраться | Возврат массива ячеек MATLAB, содержащего все элементы в RDD |
| collectAsMap | Возврат пар ключ-значение в RDD в виде MATLAB containers.Map объект |
| количество | Количество элементов в RDD |
| сгиб | Агрегирование элементов каждой секции и последующих результатов для всех секций |
| уменьшить | Уменьшение элементов РДД с помощью указанной коммутативной и ассоциативной функции |
| reduceByKeyLocally | Объединение значений для каждого ключа с помощью ассоциативной функции уменьшения, но немедленное возвращение результатов в драйвер |
| saveAsKeyValueDatastore | Сохранить значение ключа RDD как двоичный файл, который можно прочитать с помощью datastore функция |
| saveAsTallDatastore | Сохраните RDD как массив уровня MATLAB в двоичном файле, который можно прочитать с помощью datastore функция |
| saveAsTextFile | Сохранить RDD как текстовый файл |
| тайник | Хранить RDD в памяти |
| контрольно-пропускной пункт | Пометить RDD для контрольных точек |
| getCheckpointFile | Получение имени файла, в который устанавливается контрольная точка RDD |
| getDefaultReducePartitions | Получение количества разделов сокращения по умолчанию в RDD |
| getNumPartitions | Возвращает количество разделов в RDD |
| isEmpty | Определите, содержит ли RDD какие-либо элементы |
| keyLimit | Возвращаемое пороговое значение уникальных ключей, которые могут быть сохранены до разлива на диск |
| упорствовать | Установка значения уровня хранения данных RDD, сохраняющегося во всех операциях после его вычисления |
| toDebugString | Получение описания RDD и его рекурсивных зависимостей для отладки |
| не упорствовать | Пометить RDD как несуществующий, удалить все его блоки из памяти и диска |
Дополнительные сведения см. в последней документации по Spark.