Выпуск NVIDIA CUDA Toolkit 2.2
NVIDIA объявила о выпуске версии 2.2 набора инструментов CUDA Toolkit и SDK для вычислений на GPU. NVIDIA CUDA Toolkit 2.2 поддерживает несколько важных функций, которые обеспечивают шаг вперед в получении высокой производительности от параллельных вычислений на NVIDIA GPU с поддержкой CUDA. Также версия 2.2 CUDA Toolkit включает поддержку Windows 7, будущей ОС от Microsoft, которая использует вычисления на GPU.
Дополнительные функции CUDA Toolkit 2.2:
Visual Profiler для GPU
Самый распространенный шаг в повышении производительности приложения – это профилирование приложения и затем изменение кода. CUDA Visual Profiler – это графический инструмент, который обеспечивает профилирование C-приложений, работающих на GPU. Новейшая версия CUDA Visual Profiler включает метрики для транзакций памяти, предоставляя разработчикам возможность заглянуть в одну из самых важных областей, которую они могут настроить для получения более высокой производительности.
Повышенная производительность взаимодействия в OpenGL
Повышенная производительность работы для работы с широким кругом OpenGL приложений, работающих на Quadro GPU, когда вычисления с CUDA и рендеринг OpenGL графики выполняются на разных GPU (например, обработка и вывод медицинских изображений).
Текстурирование из выровненной линейной памяти
Экономия полосы пропускания памяти до 2 раз для приложений обработки видео.
Чтение и запись из системной памяти в ядре
Обеспечивает прирост производительности для приложений потокового медиа, транскодирования видео, обработки изображений и обработки сигналов благодаря тому, что функции CUDA могут читать и писать напрямую из закрепленной общей памяти. Это снижает частоту и объем данных, копируемых из памяти GPU в CPU и обратно. Поддержка в MCP7x и GT200 и более поздних GPU.
Закрепленная общая память
Позволяет приложениям, использующим несколько GPU, получить более высокую производительность и использовать меньше общей памяти, предоставляя нескольким GPU доступ к одним и тем же данным в системной памяти. К типичным мульти-GPU системам относятся Tesla серверы, персональные суперкомпьютеры Tesla, рабочие станции с приставными модулями QuadroPlex и потребительские системы с несколькими GPU.
Поддержка асинхронного копирования в Vista
Позволяет приложениям получать более высокую производительность благодаря асинхронному копированию памяти. Эта функция уже была доступна на других поддерживаемых платформах, но теперь поддерживается и на Vista.
Аппаратный отладчик для GPU
Разработчики теперь могут использовать отладчик аппаратного уровня на GPU с CUDA, который обеспечивает простоту популярного GDB отладчика с открытым кодом и позволяет разработчикам с легкостью отлаживать программы, которые работают с тысячами потоков на GPU. Этот CUDA GDB отладчик для Linux имеет все возможности, необходимые для отладки прямо на GPU, включая возможность устанавливать контрольные точки, отслеживать переменные, проверять состояние и т.д.
Эксклюзивный режим устройства
Эта опция конфигурации системы позволяет приложению эксклюзивно использовать GPU, гарантируя, что 100% процессорной мощи и памяти GPU будут использоваться данным приложением. В системе могут работать одновременно несколько приложений, но только одно может использовать каждый GPU за раз. Такая конфигурация особенно полезна на кластерных системах Tesla, где большим приложениям может потребоваться вся мощь одного или нескольких GPU в каждом узле кластера Linux.
Дополнительные функции CUDA Toolkit 2.2:
Visual Profiler для GPU
Самый распространенный шаг в повышении производительности приложения – это профилирование приложения и затем изменение кода. CUDA Visual Profiler – это графический инструмент, который обеспечивает профилирование C-приложений, работающих на GPU. Новейшая версия CUDA Visual Profiler включает метрики для транзакций памяти, предоставляя разработчикам возможность заглянуть в одну из самых важных областей, которую они могут настроить для получения более высокой производительности.
Повышенная производительность взаимодействия в OpenGL
Повышенная производительность работы для работы с широким кругом OpenGL приложений, работающих на Quadro GPU, когда вычисления с CUDA и рендеринг OpenGL графики выполняются на разных GPU (например, обработка и вывод медицинских изображений).
Текстурирование из выровненной линейной памяти
Экономия полосы пропускания памяти до 2 раз для приложений обработки видео.
Чтение и запись из системной памяти в ядре
Обеспечивает прирост производительности для приложений потокового медиа, транскодирования видео, обработки изображений и обработки сигналов благодаря тому, что функции CUDA могут читать и писать напрямую из закрепленной общей памяти. Это снижает частоту и объем данных, копируемых из памяти GPU в CPU и обратно. Поддержка в MCP7x и GT200 и более поздних GPU.
Закрепленная общая память
Позволяет приложениям, использующим несколько GPU, получить более высокую производительность и использовать меньше общей памяти, предоставляя нескольким GPU доступ к одним и тем же данным в системной памяти. К типичным мульти-GPU системам относятся Tesla серверы, персональные суперкомпьютеры Tesla, рабочие станции с приставными модулями QuadroPlex и потребительские системы с несколькими GPU.
Поддержка асинхронного копирования в Vista
Позволяет приложениям получать более высокую производительность благодаря асинхронному копированию памяти. Эта функция уже была доступна на других поддерживаемых платформах, но теперь поддерживается и на Vista.
Аппаратный отладчик для GPU
Разработчики теперь могут использовать отладчик аппаратного уровня на GPU с CUDA, который обеспечивает простоту популярного GDB отладчика с открытым кодом и позволяет разработчикам с легкостью отлаживать программы, которые работают с тысячами потоков на GPU. Этот CUDA GDB отладчик для Linux имеет все возможности, необходимые для отладки прямо на GPU, включая возможность устанавливать контрольные точки, отслеживать переменные, проверять состояние и т.д.
Эксклюзивный режим устройства
Эта опция конфигурации системы позволяет приложению эксклюзивно использовать GPU, гарантируя, что 100% процессорной мощи и памяти GPU будут использоваться данным приложением. В системе могут работать одновременно несколько приложений, но только одно может использовать каждый GPU за раз. Такая конфигурация особенно полезна на кластерных системах Tesla, где большим приложениям может потребоваться вся мощь одного или нескольких GPU в каждом узле кластера Linux.