Расчет reproducible является тем, который дает тем же результатам каждый раз, когда это запускается. Воспроизводимость важна для:
Отлаживая — Чтобы откорректировать аномальный результат, необходимо воспроизвести результат.
Доверие — Когда можно воспроизвести результаты, можно исследовать и изучить их.
Изменение существующего кода — Когда вы изменяете существующий код, вы хотите гарантировать, что вы ничего не повреждаете.
Обычно вы не должны гарантировать воспроизводимость для своего расчета. Часто, когда это необходимо, воспроизводимость, самый простой метод должен запуститься в сериале вместо параллельно. В последовательном расчете можно просто вызвать rng
функция можно следующим образом:
s = rng % Obtain the current state of the random stream % run the statistical function rng(s) % Reset the stream to the previous state % run the statistical function again, obtain identical results
Этот раздел обращается к случаю, когда ваша функция использует случайные числа, и вы хотите восстанавливаемые результаты параллельно. Этот раздел также обращается к случаю, когда это необходимо, те же результаты параллельно как в сериале.
Чтобы запустить Statistics and Machine Learning Toolbox™ функционируют восстанавливаемо:
Установите UseSubstreams
опция к true
использование statset
.
Установите Streams
опция к типу, который поддерживает подпотоки: 'mlfg6331_64'
или 'mrg32k3a'
. Для получения информации об этих потоках смотрите RandStream.list
.
Чтобы вычислить параллельно, установите UseParallel
опция к true
.
Приспосабливать ансамбль в параллельном использовании fitcensemble
или fitrensemble
, создайте древовидный шаблон с 'Reproducible'
набор пары "имя-значение" к true
:
t = templateTree('Reproducible',true); ens = fitcensemble(X,Y,'Method','bag','Learners',t,... 'Options',options);
Вызовите функцию со структурой опций.
Чтобы воспроизвести расчет, сбросьте поток, затем вызовите функцию снова.
Чтобы изучить, почему этот метод дает воспроизводимость, смотрите, Как Подпотоки Включают Восстанавливаемые Параллельные Расчеты.
Например, чтобы использовать 'mlfg6331_64'
поток для восстанавливаемого расчета:
Создайте структуру подходящих вариантов:
s = RandStream('mlfg6331_64'); options = statset('UseParallel',true, ... 'Streams',s,'UseSubstreams',true);
Запустите свой параллельный расчет. Для инструкций смотрите Параллельные вычисления Быстрого запуска для Statistics and Machine Learning Toolbox.
Сбросьте случайный поток:
reset(s);
Повторно выполните свой параллельный расчет. Вы получаете идентичные результаты.
Поскольку примеры параллельного расчета запускают этот восстанавливаемый путь, смотрите Восстанавливаемую Параллельную Начальную загрузку и Обучите Ансамбль Классификации параллельно.
substream является фрагментом случайного потока что RandStream
может получить доступ быстро. Существует номер M
таким образом это для любого положительного целочисленного k
RandStream
может перейти к kM
псевдослучайное число th в потоке. От той точки, RandStream
может сгенерировать последующие записи в потоке. В настоящее время, RandStream
имеет M
= 272, о 5e21, или больше.
Записи в различных подпотоках имеют хорошие статистические свойства, похожие на свойства записей в едином потоке: независимость и отсутствие k - путь корреляция в различных задержках. Подпотоки являются такими длинными, что можно просмотреть подпотоки, как являющиеся независимыми потоками, как в следующем изображении.
Два RandStream
поток вводит подпотоки поддержки: 'mlfg6331_64'
и 'mrg32k3a'
.
Когда MATLAB® выполняет расчеты параллельно с parfor
, каждый рабочий получает итерации цикла в непредсказуемом порядке. Поэтому вы не можете предсказать, какой рабочий добирается, какая итерация, так не может определить случайные числа, сопоставленные с каждой итерацией.
Подпотоки позволяют MATLAB связывать каждую итерацию с конкретной последовательностью случайных чисел. parfor
дает каждой итерации индекс. Итерация использует индекс в качестве подпотокового номера. Поскольку случайные числа сопоставлены с итерациями, не с рабочими, целый расчет восстанавливаем.
Чтобы получить восстанавливаемые результаты, просто сбросьте поток, и все подпотоки генерируют идентичные случайные числа, когда названо снова. Этот метод успешно выполняется, когда все рабочие используют тот же поток, и поток поддерживает подпотоки. Это завершает обсуждение того, как процедура в Выполнении Восстанавливаемых Параллельных Расчетов дает восстанавливаемые параллельные результаты.
Несколько функций генерируют случайные числа на клиенте прежде, чем распределить их, чтобы быть параллельными рабочим. Рабочие не используют случайные числа, поэтому действуют просто детерминировано. Для этих функций можно запустить параллельный расчет восстанавливаемо с помощью любого случайного потокового типа.
Функции, которые управляют этим путем, включают:
Чтобы получить идентичные результаты, сбросьте случайный поток на клиенте или случайный поток, который вы передаете клиенту. Например:
s = rng % Obtain the current state of the random stream % run the statistical function rng(s) % Reset the stream to the previous state % run the statistical function again, obtain identical results
В то время как этот метод позволяет вам запуститься восстанавливаемо параллельно, результаты могут отличаться от последовательного расчета. Причина различия parfor
циклы, запущенные в обратном порядке от for
циклы. Поэтому последовательный расчет может сгенерировать случайные числа в различном порядке, чем параллельный расчет. Для определенной воспроизводимости используйте метод в Выполнении Восстанавливаемых Параллельных Расчетов.
Для тестирования или сравнения с помощью конкретных алгоритмов случайных чисел, необходимо установить генераторы случайных чисел. Как вы устанавливаете эти генераторы параллельно или инициализируете потоки на каждом рабочем конкретным способом? Или вы можете хотеть запустить расчет с помощью различной последовательности случайных чисел, чем кто-либо другой, которого вы запустили. То, как можно гарантировать последовательность, которую вы используете, статистически независимо?
Параллельные функции Statistics and Machine Learning Toolbox позволяют вам устанавливать случайные потоки на каждом рабочем явным образом. Для получения информации о создании нескольких потоков введите help RandStream/create
в командной строке. Создать четыре независимых потока с помощью 'mrg32k3a'
генератор:
s = RandStream.create('mrg32k3a','NumStreams',4,... 'CellOutput',true);
Передайте эти потоки статистической функции с помощью Streams
опция. Например:
parpool(4) % if you have at least 4 cores s = RandStream.create('mrg32k3a','NumStreams',4,... 'CellOutput',true); % create 4 independent streams paroptions = statset('UseParallel',true,... 'Streams',s); % set the 4 different streams x = [randn(700,1); 4 + 2*randn(300,1)]; latt = -4:0.01:12; myfun = @(X) ksdensity(X,latt); pdfestimate = myfun(x); B = bootstrp(200,myfun,x,'Options',paroptions);
Этот метод распределительных потоков дает каждому рабочему различный поток для расчета. Однако это не допускает восстанавливаемый расчет, потому что рабочие выполняют 200 начальных загрузок в непредсказуемом порядке. Если вы хотите выполнить восстанавливаемый расчет, используйте подпотоки как описано в Выполнении Восстанавливаемых Параллельных Расчетов.
Если вы устанавливаете UseSubstreams
опция к true
, затем установите Streams
опция к одному случайному потоку типа, который поддерживает подпотоки ('mlfg6331_64'
или 'mrg32k3a'
). Эта установка дает восстанавливаемые расчеты.