Пакет: matlab.compiler.mlspark
Суперклассы:
Класс интерфейса для представления Spark Resilient Distributed Dataset (RDD)
Resilient Distributed Dataset или RDD является программной абстракцией в Spark™. Он представляет набор элементов, распределенных по многим узлам, которые могут работать параллельно. Вся работа в Spark выражается либо как создание новых RDD, преобразование существующих RDD, либо как вызов операций на RDD для вычисления результата. RDD можно создать двумя способами:
Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера
После создания можно выполнить два типа операций с помощью RDD: преобразования и действия.
Система координат RDD объект может быть создан только с помощью методов SparkContext класс. A набора SparkContext методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext Класс для получения дополнительной информации.
| Имя метода SparkContext | Цель |
|---|---|
parallelize | Создайте RDD из локального MATLAB® значения |
datastoreToRDD | Преобразуйте |
textFile | Создайте RDD из текстового файла |
После создания RDD с использованием метода из SparkContext класс, можно использовать любой из методов в RDD класс для манипулирования RDD.
Свойства этого класса скрыты.
| aggregateByKey | Агрегируйте значения каждой клавиши, используя заданные функции объединения и нейтральное «нулевое значение» |
| декартовский | Создайте RDD, который является Декартовым продуктом двух RDD |
| соединиться | Уменьшите количество разделов в RDD |
| cogroup | Сгруппировать данные из RDD, разделяющих один и тот же ключ |
| combineByKey | Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации |
| отличный | Возвращает новый RDD, содержащий отдельные элементы существующего RDD |
| фильтр | Верните новый RDD, содержащий только элементы, которые удовлетворяют предикатной функции |
| flatMap | Верните новый RDD, сначала применив функцию ко всем элементам существующего RDD, а затем сплюснув результаты |
| flatMapValues | Передайте каждое значение в паре "ключ-значение" RDD через flatMap метод без изменения клавиш |
| foldByKey | Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения» |
| fullOuterJoin | Выполните полное внешнее соединение между двумя RDD пар "ключ-значение" |
| glom | Объедините все элементы в каждом разделе RDD |
| groupBy | Возврат RDD сгруппированных элементов |
| groupByKey | Сгруппировать значения для каждого ключа в RDD в одну последовательность |
| пересечение | Верните заданное пересечение одного RDD с другим |
| соединение | Верните RDD, содержащий все пары элементов с соответствующими ключами |
| keyBy | Создайте кортежи элементов в RDD путем применения функции |
| ключи | Верните RDD с ключами от каждого кортежа |
| leftOuterJoin | Выполните левое внешнее соединение |
| карта | Верните новый RDD путем применения функции к каждому элементу входного RDD |
| mapValues | Передайте каждое значение в паре "ключ-значение" RDD через функцию map без изменения ключей |
| reduceByKey | Объедините значения для каждого ключа с помощью ассоциативной функции сокращения |
| перераспределение | Верните новый RDD, который точно numPartitions разделение |
| rightOuterJoin | Выполните правое внешнее соединение |
| сортировать по | Сортировка RDD по заданной функции |
| sortByKey | Сортировка RDD, состоящего из пар "ключ-значение" по ключам |
| вычесть | Верните значения, следующие из установленного различия между двумя RDD |
| subtractByKey | Возврат пар "ключ-значение", полученный из-за различия набора ключей между двумя RDD |
| объединение | Верните установленное объединение одного RDD с другим |
| значения | Верните RDD со значениями каждого кортежа |
| почтовый индекс | ZIP один RDD с другим |
| zipWithIndex | ZIP RDD с его индексами элементов |
| zipWithUniqueId | ZIP RDD с сгенерированными уникальными длинными идентификаторами |
| совокупность | Агрегируйте элементы каждого раздела и впоследствии результаты для всех разделов в одно значение |
| собраться | Верните массив ячеек MATLAB, который содержит все элементы в RDD |
| collectAsMap | Верните пары "ключ-значение" в RDD как MATLAB containers.Map объект |
| количество | Количество элементов в RDD |
| сгиб | Совокупные элементы каждого раздела и последующие результаты для всех разделов |
| уменьшить | Уменьшите элементы RDD, используя заданную коммутативную и ассоциативную функцию |
| reduceByKeyLocally | Объедините значения для каждого ключа с помощью ассоциативной функции reduce, но немедленно верните результаты драйверу |
| saveAsKeyValueDatastore | Сохраните RDD со значением ключа как двоичный файл, который можно считать обратно с помощью datastore функция |
| saveAsTallDatastore | Сохраните RDD как длинный массив MATLAB в двоичный файл, который можно считать обратно с помощью datastore функция |
| saveAsTextFile | Сохраните RDD как текстовый файл |
| кэш | Сохраните RDD в памяти |
| контрольная точка | Отметьте RDD для выгрузки |
| getCheckpointFile | Получите имя файла, в который проверяется RDD |
| getDefaultReducePartitions | Получите количество сокращенных разделов по умолчанию в RDD |
| getNumPartitions | Возвращает количество разделов в RDD |
| isEmpty | Определите, содержит ли RDD какие-либо элементы |
| keyLimit | Возвращает порог уникальных ключей, которые могут храниться перед разливом на диск |
| упорствовать | Установите значение уровня хранения RDD, чтобы оно сохранялось во всех операциях после вычисления |
| toDebugString | Получите описание RDD и его рекурсивных зависимостей для отладки |
| не упорствовать | Пометьте RDD как неперсистентный, удалите все блоки для него из памяти и диска |
Для получения дополнительной информации см. последнюю документацию Spark.