Пакет: matlab.compiler.mlspark
Суперклассы:
Класс интерфейса для представления Spark Resilient Distributed Dataset (RDD)
Resilient Distributed Dataset или RDD является программной абстракцией в Spark™. Он представляет набор элементов, распределенных по многим узлам, которые могут работать параллельно. Вся работа в Spark выражается либо как создание новых RDD, преобразование существующих RDD, либо как вызов операций на RDD для вычисления результата. RDD можно создать двумя способами:
Путем загрузки внешнего набора данных
Путем параллелизации набора объектов в программе драйвера
После создания можно выполнить два типа операций с помощью RDD: преобразования и действия.
Система координат RDD
объект может быть создан только с помощью методов SparkContext
класс. A набора SparkContext
методы, используемые для создания RDD, перечислены ниже для удобства. См. документацию SparkContext
Класс для получения дополнительной информации.
Имя метода SparkContext | Цель |
---|---|
parallelize | Создайте RDD из локального MATLAB® значения |
datastoreToRDD | Преобразуйте |
textFile | Создайте RDD из текстового файла |
После создания RDD с использованием метода из SparkContext
класс, можно использовать любой из методов в RDD
класс для манипулирования RDD.
Свойства этого класса скрыты.
aggregateByKey | Агрегируйте значения каждой клавиши, используя заданные функции объединения и нейтральное «нулевое значение» |
декартовский | Создайте RDD, который является Декартовым продуктом двух RDD |
соединиться | Уменьшите количество разделов в RDD |
cogroup | Сгруппировать данные из RDD, разделяющих один и тот же ключ |
combineByKey | Объедините элементы для каждого ключа с помощью пользовательского набора функций агрегации |
отличный | Возвращает новый RDD, содержащий отдельные элементы существующего RDD |
фильтр | Верните новый RDD, содержащий только элементы, которые удовлетворяют предикатной функции |
flatMap | Верните новый RDD, сначала применив функцию ко всем элементам существующего RDD, а затем сплюснув результаты |
flatMapValues | Передайте каждое значение в паре "ключ-значение" RDD через flatMap метод без изменения клавиш |
foldByKey | Объедините значения для каждого ключа с помощью ассоциативной функции и нейтрального «нулевого значения» |
fullOuterJoin | Выполните полное внешнее соединение между двумя RDD пар "ключ-значение" |
glom | Объедините все элементы в каждом разделе RDD |
groupBy | Возврат RDD сгруппированных элементов |
groupByKey | Сгруппировать значения для каждого ключа в RDD в одну последовательность |
пересечение | Верните заданное пересечение одного RDD с другим |
соединение | Верните RDD, содержащий все пары элементов с соответствующими ключами |
keyBy | Создайте кортежи элементов в RDD путем применения функции |
ключи | Верните RDD с ключами от каждого кортежа |
leftOuterJoin | Выполните левое внешнее соединение |
карта | Верните новый RDD путем применения функции к каждому элементу входного RDD |
mapValues | Передайте каждое значение в паре "ключ-значение" RDD через функцию map без изменения ключей |
reduceByKey | Объедините значения для каждого ключа с помощью ассоциативной функции сокращения |
перераспределение | Верните новый RDD, который точно numPartitions разделение |
rightOuterJoin | Выполните правое внешнее соединение |
сортировать по | Сортировка RDD по заданной функции |
sortByKey | Сортировка RDD, состоящего из пар "ключ-значение" по ключам |
вычесть | Верните значения, следующие из установленного различия между двумя RDD |
subtractByKey | Возврат пар "ключ-значение", полученный из-за различия набора ключей между двумя RDD |
объединение | Верните установленное объединение одного RDD с другим |
значения | Верните RDD со значениями каждого кортежа |
почтовый индекс | ZIP один RDD с другим |
zipWithIndex | ZIP RDD с его индексами элементов |
zipWithUniqueId | ZIP RDD с сгенерированными уникальными длинными идентификаторами |
совокупность | Агрегируйте элементы каждого раздела и впоследствии результаты для всех разделов в одно значение |
собраться | Верните массив ячеек MATLAB, который содержит все элементы в RDD |
collectAsMap | Верните пары "ключ-значение" в RDD как MATLAB containers.Map объект |
количество | Количество элементов в RDD |
сгиб | Совокупные элементы каждого раздела и последующие результаты для всех разделов |
уменьшить | Уменьшите элементы RDD, используя заданную коммутативную и ассоциативную функцию |
reduceByKeyLocally | Объедините значения для каждого ключа с помощью ассоциативной функции reduce, но немедленно верните результаты драйверу |
saveAsKeyValueDatastore | Сохраните RDD со значением ключа как двоичный файл, который можно считать обратно с помощью datastore функция |
saveAsTallDatastore | Сохраните RDD как длинный массив MATLAB в двоичный файл, который можно считать обратно с помощью datastore функция |
saveAsTextFile | Сохраните RDD как текстовый файл |
кэш | Сохраните RDD в памяти |
контрольная точка | Отметьте RDD для выгрузки |
getCheckpointFile | Получите имя файла, в который проверяется RDD |
getDefaultReducePartitions | Получите количество сокращенных разделов по умолчанию в RDD |
getNumPartitions | Возвращает количество разделов в RDD |
isEmpty | Определите, содержит ли RDD какие-либо элементы |
keyLimit | Возвращает порог уникальных ключей, которые могут храниться перед разливом на диск |
упорствовать | Установите значение уровня хранения RDD, чтобы оно сохранялось во всех операциях после вычисления |
toDebugString | Получите описание RDD и его рекурсивных зависимостей для отладки |
не упорствовать | Пометьте RDD как неперсистентный, удалите все блоки для него из памяти и диска |
Для получения дополнительной информации см. последнюю документацию Spark.