Парадигма программирования графического процессора

Ускоренное графическим процессором вычисление следует за неоднородной моделью программирования. Очень parallelizable фрагменты программного обеспечения сопоставлены в ядра, которые выполняются на физически отдельном устройстве графического процессора, в то время как остаток от последовательного кода все еще работает на центральном процессоре. Каждое ядро выделяется несколько рабочих или потоков, которые организованы в блоках и сетках. Каждый поток в ядре выполняется одновременно с уважением друг к другу.

Heterogeneous programming model showing separation of application into sequential and parallelizable sections

Цель GPU Coder™ состоит в том, чтобы взять последовательную программу MATLAB^® и сгенерировать разделенный, оптимизированный код CUDA^® от него. Этот процесс включает:

Разделение CPU/GPU — Идентификация сегментов кода, которые работают на центральном процессоре и сегментах, которые работают на графическом процессоре. Для различных путей GPU Coder идентифицирует ядра CUDA, смотрите Создание Ядра. Затраты на передачу памяти между центральным процессором и графическим процессором являются значительным фактором в алгоритме создания ядра.
После того, как разделение ядра завершено, GPU Coder анализирует зависимость по данным между разделами центрального процессора и графического процессора. Данные, которые совместно используются центральным процессором и графическим процессором, выделяются на памяти графического процессора (при помощи cudaMalloc или cudaMallocManaged API). Анализ также определяет минимальный набор местоположений, где данные должны быть скопированы между центральным процессором и графическим процессором при помощи cudaMemcpy. Если использование Объединенная Память в CUDA, то та же аналитическая передача также определяет минимальные местоположения в коде где cudaDeviceSync вызовы должны быть вставлены, чтобы получить правильное функциональное поведение.
Затем в каждом ядре, GPU Coder может принять решение сопоставить данные с общей памятью или постоянной памятью. Если используется мудро, эта память является частью структуры иерархии памяти графического процессора и может потенциально привести к большей пропускной способности памяти. Для получения информации о том, как GPU Coder принимает решение сопоставить с общей памятью, видеть, что Шаблон Обрабатывает. Для получения информации о том, как GPU Coder принимает решение сопоставить с постоянной памятью, видеть coder.gpu.constantMemory.
Если разделение и выделение памяти и операторы передачи существуют, GPU Coder генерирует код CUDA, который следует за решениями разделения и выделения памяти. Сгенерированный исходный код может быть скомпилирован в цель MEX, которая будет названа из MATLAB или в разделяемую библиотеку, которая будет интегрирована с внешним проектом. Для получения информации смотрите, что Генерация кода Использует Интерфейс командной строки.

Документация GPU Coder

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация