Обзор Nvidia GeForce 6500
Не так давно я рассказывал о материнской плате GigaByte GA8I915P, построенной на базе набора логики Intel 915P Express, отметив при этом, что описываемая материнская плата является весьма удачной платформой для построения недорогой системы для самых различных целей. Как уже было сказано, основная продукция этой компании, известная на отечественном рынке — материнские платы и видеоадаптеры.
Повторюсь: изделия этой тайваньской компании отличаются высокой надежностью, стабильностью работы, умеренной ценой и достаточно неплохой производительностью. Сегодня я хочу предоставить вниманию читателей недорогой видеоадаптер этого производителя — GigaByte GV-NX65128D, который построен на базе графического процессора NV44. Спецификация видеокарты приведена в таблице. Видеопроцессор содержит 4 пиксельных, 3 вершинных конвейера и встроенный шинный интерфейс PCI Express. На сайте GigaByte www.gigabyte.tw.com заявлено о поддержке DirectX 9.0C и OpenGL 1.5. Видеокарта содержит 128 Мб набортной памяти, а сам графический чип позволяет адресовать до 256 Мб памяти. Интерфейс устройств отображения поддерживает аналоговое и цифровое подключение мониторов, а также подключение видеоаппаратуры.
Чипсет — NVIDIA GeForce 6500
Объем памяти — 128 Мб
Ширина шины памяти — 64 бита
Тип и логическая организация памяти — GDDR2 16М*16 бит
Шина — PCI Express x16
Реализованные видеоинтерфейсы — DSUB, TV-Out, DVI-I
Ко мне плата попала в OEM-варианте, и в комплекте, кроме компакт-диска и HDTV-переходника, ничего не было. А вообще, как заявлено на сайте GigaByte, в качестве опций могут поставляться следующие аксессуары:
. Комплект охлаждения, представляющий собой металлический кронштейн, который вставляется в свободный отсек корпуса, с закрепленным на нем вентилятором.
. HDTV-переходник, представляющий собой внешний модуль, подключаемый к видеоадаптеру и содержащий видеовыходы S-Video, Y/Cb/Cr и
композитный (конструктивно совмещенный с выходом канала Y).
. Переходник DVI/D-Sub.
Спецификация чипа NV44
Кодовое имя — NV44
Технология — 110 нм
Транзисторов — 77 млн
Пиксельных процессоров — 2
Текстурных блоков — 4
Блоков блендинга — 2
Вершинных процессоров — 3
Шина памяти — 64 = 32x2
Типы памяти — DDR, GDDR2, GDDR3
Системная шина чипа — PCI Express Graphic 16 x
RAMDAC — 2x400 МГц
Интерфейсы — 3.0
Вершинные шейдеры — 3.0
Точность пиксельных вычислений — FP16, FP32
Точность вершинных вычислений — FP32
Форматы компонент текстур — FP32 (без фильтрации), FP16, I8, DXTC, S3TC 3Dc (эмуляция)
Форматы рендеринга — FP32 (без блендинга и MSAA), FP16 (без блендинга и MSAA), I8
MRT — присутствует
AA — 2x и 4x RGMS, SS (в гибридных режимах)
Генерация Z — 2x в режиме без цвета
Буфер шаблонов — двусторонний
Технологии теней — аппаратные карты теней, оптимизации геометрических теней
Дизайн и компоненты платы
Плата изготовлена из синего текстолита — своеобразный фирменный знак GigaByte. К сожалению, я не смог найти описание референсного дизайна видеокарт GeForce 6500, поэтому не могу сказать, придерживался ли производитель рекомендаций NVidia или внес некоторые изменения. Как видим, на плате имеются две площадки для распайки дополнительных микросхем — смею предположить, что одна из них предназначена для установки чипа захвата для организации TV-In-интерфейса.
Основой схемы питания графического ядра и видеопамяти являются 2 PWM-контроллера (ШИМ-контроллеры) компании Intersil — i6549CAZ.
Электролитические конденсаторы, установленные на плате, изготовлены неизвестным мне производителем — nichicon, поэтому о качестве этих элементов ничего не могу сказать. Сам графический процессор находится под массивным алюминиевым радиатором, здесь же рядом расположен кварцевый резонатор на 27 МГц. Частота, на которой работает ядро видеопроцессора, составляет 400 МГц, что соответствует рекомендациям NVidia. Видеоадаптер оснащается памятью GDDR2, что достаточно необычно для бюджетной платы, но, с другой стороны, память GDDR2 становится все более доступной по стоимости, а по частотным характеристикам значительно превосходит обычную DDR — так почему бы и нет? GV-NX6518D использует чипы памяти Infineon HYB18T256161AF-28. Как следует из маркировки, модули памяти используют напряжения питания VDD и VDDQ 1,8 В, имеют емкость 256 Мбит и логическую организацию 16Мx16 бит, время доступа составляет 2,8 нс. Значение времени доступа позволяет говорить о номинальной частоте для этих микросхем 350 МГц, эффективная же частота обмена составляет 700 МГц. На плате установлены 4 микросхемы памяти — они находятся под радиатором рядом с видеопроцессором. Однако радиатор, по сути, обеспечивает охлаждение только процессора (для обеспечения надежного теплового контакта между ними используется теплопроводящая паста), а воздушный зазор между радиатором и микросхемами памяти говорит об отсутствии должного охлаждения этих чипов.
Драйверы и программное обеспечение
На компакт-диске содержится набор драйверов для различных аппаратных платформ/операционных систем и другое ПО:
. DirectX 9.0.
. Power-DVD 6.0.
. GigaByte VGA Utility — на самом деле это не одна утилита, а комплекс, состоящий из нескольких полезных программ.
Набор драйверов достаточно богатый, поэтому перечислю его состав:
. Драйверы для ОС Windows 2000/XP — с видеокартой поставляется несколько версий драйверов для ОС этого семейства: 7184, 7772, 7774, 7777 и 7801. Я устанавливал 7801. Версия драйверов для Windows 9x/Me — 7645. Есть также драйверы для 64-битной версии ОС WinXP: 7184, 7772, 7774, 7777.
. Пользователи, предпочитающие ОС Linux, также найдут на CD необходимые пакеты для различных вариантов процессора: AMD64 (ver. 1.0-4499), IA64 (ver. 1.0-4050), IA32 (ver. 1.0-4496).
Как видим, достаточно большой выбор, и большинство пользователей будут обеспечены необходимым драйвером, по крайней мере, на первое время, а потом можно и новую версию скачать.
GigaByte VGA Utility после инсталляции помещает свой значок в область трея и позволяет вызывать диалоговые окна свойств дисплея и системы, переключать видеорежимы, вызывать диалог цветокоррекции, а также запускать утилиты @VGA и V-Tuner2.
Утилита Gigabyte @VGA BIOS Writer, как следует из названия, предназначена для манипуляций с флэш-памятью, в которой записана BIOS видеоадаптера. Программа позволяет сохранить содержимое флэш-памяти в файле, обновить содержимое флэш-памяти и получить сопутствующую информацию (версию Video BIOS, марку чипа памяти и ее емкость). Новую версию BIOS'а можно загружать как из файла, так и из Интернета.
Утилита V-Tune2 предназначена для оверклокинга видеоадаптера. При помощи ползунковых регуляторов можно изменять значение частоты ядра видеопроцессора и видеопамяти. Значение частоты отображается здесь же на индикаторе. После установки желаемых значений нужно просто нажать кнопку GO под соответствующим регулятором. Программа оснащена привлекательным интерфейсом, который поддерживает сменные панели (скины).
Производительность и возможности разгона
Для тестирования видеокарты использовалась система следующей конфигурации: материнская плата GigaByte GA8I915P c набором логики Intel 915P, процессор Intel Celeron D 2,93 МГц (объем кэша 256 Кб, частота FSB 533 МГц), оперативная память — Hynix 512 Мб (DDR2-SDRAM, эффективная частота обмена данными — 533 МГц, ширина шины — 64 бита), жесткий диск — Seagate Barracuda 8 (SATA 150, объем 250 Гб), монитор FujitsuSiemens SCENICVIEW P17-2, звук интегрированный в материнскую плату, кодек — Realtek ALC850. Операционная система — Windows XP SP2 5.01.2600. Для тестирования использовались драйверы, которые были записаны на компакт-диске, прилагаемом к видеоадаптеру. Для подключения монитора использовалось как аналоговое, так и цифровое подключение. При тестировании были установлены следующие режимы работы видеоадаптера:
ImageSettings — Quality
VerticalSync — Off
TrilinearOptimization — On
Anizotropic mip filter optimization — Off
Anizotropic sample optimization — On
Gamma correct antialiasing — On
Transparency antialiasing — Off
Для тестирования производительности использовался пакет 3DMark 2003 от FutureMark Corporation. Результаты тестирования сведены в таблицу.
Таблица 1
Как видно из таблицы, результаты совсем не впечатляющие даже для бюджетной видеокарты (каковой является GV-NX65128D). Попробую определить, какой из компонентов является фактором, ограничивающим производительность. Для того, чтобы удостовериться, как общая производительность зависит от производительности процессора, я использовал соответствующие тесты. Результаты — в таблице.
Таблица 2
Итак, увеличение объема обрабатываемой информации (возросшее число пикселей) не сказывается на производительности, т.е. центральный процессор вполне справляется с поступающим потоком данных. Итак, игровая производительность в нашем случае целиком ограничивается видеоадаптером. Я думаю, причиной является недостаточная пропускная способность шины памяти, ограниченная ее разрядностью 64 бита. Возможно, читателям будет интересно узнать, можно ли хоть как-то исправить положение с минимальными затратами (т.е. не обладая богатым опытом по части оверклокинга и с использованием только тех программных средств, которые поставляются в комплекте). Я сделал попытку увеличить производительность путем увеличения частоты ядра и видеопамяти, для чего использовал утилиту V-Tune2, описанную в предыдущем разделе. Напомню: значения штатных частот ядра/видеопамяти составляют 400/700 МГц соответственно. Попытки разгона показали следующие результаты: частоту ядра удалось поднять всего лишь до значения 450 МГц, температура ядра при этом составляет 80°С (значение температуры можно узнать в диалоговой панели драйвера видеоадаптера). При частоте 460 МГц на изображении уже начинают появляться артефакты, а на частоте 480 МГц, помимо весьма заметных артефактов, имеет место нестабильная работа пакета 3DMark, которая выражается в периодических зависаниях. Отсутствие возможности повысить частоту более чем на 12,5% не позволяет говорить о каком-либо значительном разгонном потенциале, прирост производительности при этом оказался и вовсе смехотворный — 2943 единицы против 2853 на штатной частоте (при разрешении 1024x768), т.е. около 3%. Возможности разгона видеопамяти более широки: мне удалось повысить частоту памяти до значения 910 МГц без каких-либо негативных последствий. Поднимать эту планку я не рискнул, ибо, как я уже говорил, микросхемы видеопамяти практически не охлаждаются, а дополнительного охлаждения я не использовал по причине, указанной ниже. Зависимость производительности от частоты видеопамяти сведена в таблицу. Прирост производительности вычислялся по значениям интегрального показателя 3DMark, который измеряется в безразмерных единицах и рассчитывается как среднее геометрическое от fps в каждом из игровых тестов (с равными весовыми коэффициентами), полученное значение умножается на 250. Все результаты приводятся для разрешения 1024x768.
Таблица 3
Целью последнего эксперимента я ставил выяснить прирост производительности, получаемой при работе компонент видеоадаптера на граничных частотах (450/910 МГц), значение интегрального показателя 3DMark в этом режиме составляет 3322 единицы (разрешение 1024x768), что соответствует 16-процентному приросту. Однако при работе в этом режиме в тесте Game4 начинают появляться слегка заметные артефакты, хотя в целом 3DMark работает стабильно. Полученные результаты не позволяют говорить о каком-либо значительном разгонном потенциале видеоадаптера. Но следует оговориться, что эксперименты, которые я проводил, делались на скорую руку (видеокарта была у меня совсем недолго), т.е. не использовалось никаких дополнительных средств охлаждения, кроме штатного радиатора, при разгоне использовалась утилита V-Tune2, которая позволяет изменять лишь частоты ядра/видеопамяти. Возможно, при более тщательном подходе, используя утилиту RivaTuner, которая позволяет выполнять более тонкую настройку режимов работы отдельных компонент видеоадаптера, применяя принудительное охлаждение, можно достичь большего результата в области повышения частот, но вот даст ли это какой-либо значительный прирост производительности — вопрос спорный — на мой взгляд, овчинка выделки не стоит.
Для того чтобы проводить некоторые рассуждения о том, какой из компонентов видеоадаптера является сдерживающим фактором, следует кратко описать процесс формирования изображения. Построение изображения современным графическим ускорителем — задача не из легких, состоящая из ряда этапов. Упрощенно эту последовательность можно представить следующим образом:
1. Выборка вершин из памяти и запись их в предварительный кэш вершин. Данные о вершине могут храниться в различных форматах и не обязательно единой структурой. Иногда часть атрибутов вершины хранится в одном массиве, вторая часть — в другом. В этом случае выборка данных должна быть многопоточной. Это задача блока выборки геометрии.
2. Каждая вершина из кэша обрабатывается процессором вершин. Здесь над вершинами выполняются такие операции, как трансформация и освещение (Transform&Light — T&L). Обработка выполняется либо вершинным шейдером (вершинный шейдер — программа, которая выполняется видеочипом и реализует математическую обработку параметров вершин: пространственные координаты, текстурные координаты, характеристики цвета,
освещение), либо аппаратным блоком T&L.
3. Обработанные вершины помещаются в промежуточный буфер вершин. Этот буфер служит двум целям: во-первых — накопление данных, готовых для поступления на следующие стадии конвейера, уменьшая вероятность простоя обрабатывающих блоков ускорителя; во-вторых, промежуточный буфер позволяет избежать повторной обработки вершины, если она будет востребована в скором времени повторно (такое происходит очень часто).
4. Вершины объединяются в треугольники и поступают в блок установки треугольников, основная задача которого — отбросить все невидимые треугольники для исключения их последующей обработки.
5. Треугольники разбиваются на фрагменты (см. рис. 1), часть из которых, по результатам Z-теста, отбрасывается как невидимые. Эта операция еще иногда называется HSR (Hidden Space Removal — общее обозначение технологий отсечения невидимых частей сцены в конечном изображении). Результатом этого этапа являются видимые или частично видимые блоки пикселей, т.н. "квады". Квады — это блоки пикселей размером 2x2 — такая группировка пикселей позволяет оптимизировать их закраску. Таким образом, достаточно большая часть пикселей будет отсеяна еще до закраски, поэтому производительность Z-операций должна быть выше производительности закраски пикселей.
6. Далее квады отправляются на установку фрагментов — здесь происходит вычисление необходимых параметров для каждого блока. Именно на этом этапе сказывается оптимизирующий фактор организации пикселей в квады: вычисляются базовые значения параметров для всего блока (C) и их производные (dx, dy), а затем путем интерполяции из одного набора параметров получают все 4 (см. рис. 2).
7. После установки фрагментов выполняется их закраска. Эта задача возлагается на процессор фрагментов, он же выполняет выборку и фильтрацию текстур.
8. После расчета значений цвета пиксельным процессором может выполняться операция смешения (блендинга). Если включен соответствующий режим, результирующие значения цвета и глубины записываются в буфер кадра. Построенное изображение может быть подвергнуто дополнительной обработке для усреднения результатов полноэкранного AA (Anti Aliasing — сглаживание).
Обобщенная блок-схема современного графического ускорителя представлена на рис. 3.
Обращая внимание на интерфейс памяти, можно отметить, что он 4-канальный — вся шина памяти делится на 4 полностью независимых (каждая со своими управляющими сигналами) шины. Для чего это сделано? Все становится достаточно просто, если поразмыслить о том, какие потоки данных поступают в память и считываются из нее. Вершины и текстуры, как правило, только считываются, буфер кадра обычно только записывается, буфер глубины (Z) считывается и записывается. Т.е. мы имеем 4 независимых потока данных. Если эти потоки данных пространственно распараллелить, то можно добиться значительного уменьшения задержек при обращении к данным. Теперь, когда процесс построения изображения более или менее понятен, можно приступать к анализу результатов. Как выяснилось ранее, слабым элементом является видеоадаптер, т.е. центральный процессор успевает подготовить необходимую информацию и записать ее в память. Когда будет получен готовый результат, зависит от того, насколько оперативно эти данные будут считаны, обработаны и записаны в буфер кадра. Обратимся к спецификации чипа. Как видим, он содержит достаточно небольшое количество вычислительных блоков: 4 текстурных и 3 вершинных, — но даже неудавшаяся попытка разгона позволяет говорить о том, что эти блоки, скорее всего, полностью не загружены. В то же время увеличение частоты памяти привело к более или менее заметному результату. Увеличить объем данных, прокачиваемых по шине, можно двумя путями: поднимая частоту обмена (что я и сделал) и/или расширяя саму шину. Вывод напрашивается сам собой: 2- канальный контроллер памяти + ширина шины всего 64 (2*32) бита — вот что является причиной такой ничтожной производительности.
Вывод
Не следует рассматривать эту плату в качестве игрового ускорителя: низкая пропускная способность шины памяти не позволит играть в режимах с высоким разрешением и глубиной цвета при достаточно комфортной частоте кадров. Положение не спасает даже установленная память GDDR2 и расширенные возможности использования системной памяти, адресуемой через PCE Express. Любителям поэкспериментировать и выжать из видеоадаптера максимум производительности она тоже, скорее всего, не понравится. GV-NX65128D — неплохой вариант для домашнего или недорогого мультимедийного компьютера, учитывая хорошее качество 2D-графики (впрочем, тут следует рассматривать каждый экземпляр индивидуально) и вполне достаточные возможности по части вывода видеоизображений.
Петр Мороз
Повторюсь: изделия этой тайваньской компании отличаются высокой надежностью, стабильностью работы, умеренной ценой и достаточно неплохой производительностью. Сегодня я хочу предоставить вниманию читателей недорогой видеоадаптер этого производителя — GigaByte GV-NX65128D, который построен на базе графического процессора NV44. Спецификация видеокарты приведена в таблице. Видеопроцессор содержит 4 пиксельных, 3 вершинных конвейера и встроенный шинный интерфейс PCI Express. На сайте GigaByte www.gigabyte.tw.com заявлено о поддержке DirectX 9.0C и OpenGL 1.5. Видеокарта содержит 128 Мб набортной памяти, а сам графический чип позволяет адресовать до 256 Мб памяти. Интерфейс устройств отображения поддерживает аналоговое и цифровое подключение мониторов, а также подключение видеоаппаратуры.
Чипсет — NVIDIA GeForce 6500
Объем памяти — 128 Мб
Ширина шины памяти — 64 бита
Тип и логическая организация памяти — GDDR2 16М*16 бит
Шина — PCI Express x16
Реализованные видеоинтерфейсы — DSUB, TV-Out, DVI-I
Ко мне плата попала в OEM-варианте, и в комплекте, кроме компакт-диска и HDTV-переходника, ничего не было. А вообще, как заявлено на сайте GigaByte, в качестве опций могут поставляться следующие аксессуары:
. Комплект охлаждения, представляющий собой металлический кронштейн, который вставляется в свободный отсек корпуса, с закрепленным на нем вентилятором.
. HDTV-переходник, представляющий собой внешний модуль, подключаемый к видеоадаптеру и содержащий видеовыходы S-Video, Y/Cb/Cr и
композитный (конструктивно совмещенный с выходом канала Y).
. Переходник DVI/D-Sub.
Спецификация чипа NV44
Кодовое имя — NV44
Технология — 110 нм
Транзисторов — 77 млн
Пиксельных процессоров — 2
Текстурных блоков — 4
Блоков блендинга — 2
Вершинных процессоров — 3
Шина памяти — 64 = 32x2
Типы памяти — DDR, GDDR2, GDDR3
Системная шина чипа — PCI Express Graphic 16 x
RAMDAC — 2x400 МГц
Интерфейсы — 3.0
Вершинные шейдеры — 3.0
Точность пиксельных вычислений — FP16, FP32
Точность вершинных вычислений — FP32
Форматы компонент текстур — FP32 (без фильтрации), FP16, I8, DXTC, S3TC 3Dc (эмуляция)
Форматы рендеринга — FP32 (без блендинга и MSAA), FP16 (без блендинга и MSAA), I8
MRT — присутствует
AA — 2x и 4x RGMS, SS (в гибридных режимах)
Генерация Z — 2x в режиме без цвета
Буфер шаблонов — двусторонний
Технологии теней — аппаратные карты теней, оптимизации геометрических теней
Дизайн и компоненты платы
Плата изготовлена из синего текстолита — своеобразный фирменный знак GigaByte. К сожалению, я не смог найти описание референсного дизайна видеокарт GeForce 6500, поэтому не могу сказать, придерживался ли производитель рекомендаций NVidia или внес некоторые изменения. Как видим, на плате имеются две площадки для распайки дополнительных микросхем — смею предположить, что одна из них предназначена для установки чипа захвата для организации TV-In-интерфейса.
Основой схемы питания графического ядра и видеопамяти являются 2 PWM-контроллера (ШИМ-контроллеры) компании Intersil — i6549CAZ.
Электролитические конденсаторы, установленные на плате, изготовлены неизвестным мне производителем — nichicon, поэтому о качестве этих элементов ничего не могу сказать. Сам графический процессор находится под массивным алюминиевым радиатором, здесь же рядом расположен кварцевый резонатор на 27 МГц. Частота, на которой работает ядро видеопроцессора, составляет 400 МГц, что соответствует рекомендациям NVidia. Видеоадаптер оснащается памятью GDDR2, что достаточно необычно для бюджетной платы, но, с другой стороны, память GDDR2 становится все более доступной по стоимости, а по частотным характеристикам значительно превосходит обычную DDR — так почему бы и нет? GV-NX6518D использует чипы памяти Infineon HYB18T256161AF-28. Как следует из маркировки, модули памяти используют напряжения питания VDD и VDDQ 1,8 В, имеют емкость 256 Мбит и логическую организацию 16Мx16 бит, время доступа составляет 2,8 нс. Значение времени доступа позволяет говорить о номинальной частоте для этих микросхем 350 МГц, эффективная же частота обмена составляет 700 МГц. На плате установлены 4 микросхемы памяти — они находятся под радиатором рядом с видеопроцессором. Однако радиатор, по сути, обеспечивает охлаждение только процессора (для обеспечения надежного теплового контакта между ними используется теплопроводящая паста), а воздушный зазор между радиатором и микросхемами памяти говорит об отсутствии должного охлаждения этих чипов.
Драйверы и программное обеспечение
На компакт-диске содержится набор драйверов для различных аппаратных платформ/операционных систем и другое ПО:
. DirectX 9.0.
. Power-DVD 6.0.
. GigaByte VGA Utility — на самом деле это не одна утилита, а комплекс, состоящий из нескольких полезных программ.
Набор драйверов достаточно богатый, поэтому перечислю его состав:
. Драйверы для ОС Windows 2000/XP — с видеокартой поставляется несколько версий драйверов для ОС этого семейства: 7184, 7772, 7774, 7777 и 7801. Я устанавливал 7801. Версия драйверов для Windows 9x/Me — 7645. Есть также драйверы для 64-битной версии ОС WinXP: 7184, 7772, 7774, 7777.
. Пользователи, предпочитающие ОС Linux, также найдут на CD необходимые пакеты для различных вариантов процессора: AMD64 (ver. 1.0-4499), IA64 (ver. 1.0-4050), IA32 (ver. 1.0-4496).
Как видим, достаточно большой выбор, и большинство пользователей будут обеспечены необходимым драйвером, по крайней мере, на первое время, а потом можно и новую версию скачать.
GigaByte VGA Utility после инсталляции помещает свой значок в область трея и позволяет вызывать диалоговые окна свойств дисплея и системы, переключать видеорежимы, вызывать диалог цветокоррекции, а также запускать утилиты @VGA и V-Tuner2.
Утилита Gigabyte @VGA BIOS Writer, как следует из названия, предназначена для манипуляций с флэш-памятью, в которой записана BIOS видеоадаптера. Программа позволяет сохранить содержимое флэш-памяти в файле, обновить содержимое флэш-памяти и получить сопутствующую информацию (версию Video BIOS, марку чипа памяти и ее емкость). Новую версию BIOS'а можно загружать как из файла, так и из Интернета.
Утилита V-Tune2 предназначена для оверклокинга видеоадаптера. При помощи ползунковых регуляторов можно изменять значение частоты ядра видеопроцессора и видеопамяти. Значение частоты отображается здесь же на индикаторе. После установки желаемых значений нужно просто нажать кнопку GO под соответствующим регулятором. Программа оснащена привлекательным интерфейсом, который поддерживает сменные панели (скины).
Производительность и возможности разгона
Для тестирования видеокарты использовалась система следующей конфигурации: материнская плата GigaByte GA8I915P c набором логики Intel 915P, процессор Intel Celeron D 2,93 МГц (объем кэша 256 Кб, частота FSB 533 МГц), оперативная память — Hynix 512 Мб (DDR2-SDRAM, эффективная частота обмена данными — 533 МГц, ширина шины — 64 бита), жесткий диск — Seagate Barracuda 8 (SATA 150, объем 250 Гб), монитор FujitsuSiemens SCENICVIEW P17-2, звук интегрированный в материнскую плату, кодек — Realtek ALC850. Операционная система — Windows XP SP2 5.01.2600. Для тестирования использовались драйверы, которые были записаны на компакт-диске, прилагаемом к видеоадаптеру. Для подключения монитора использовалось как аналоговое, так и цифровое подключение. При тестировании были установлены следующие режимы работы видеоадаптера:
ImageSettings — Quality
VerticalSync — Off
TrilinearOptimization — On
Anizotropic mip filter optimization — Off
Anizotropic sample optimization — On
Gamma correct antialiasing — On
Transparency antialiasing — Off
Для тестирования производительности использовался пакет 3DMark 2003 от FutureMark Corporation. Результаты тестирования сведены в таблицу.
Таблица 1
1024x768 | 1280x1024 | |
3Dmark Score | 2853 | 1997 |
Game1 — Wings of Fury | 100,8 fps | 72,1 fps |
Game2 — Battle of Proxycon | 16,2 fps | 10,5 fps |
Game3 — Troll's Lair | 15,2 fps | 9,9 fps |
Game4 — Mother Nature | 20,7 fps | 15,9 fps |
Как видно из таблицы, результаты совсем не впечатляющие даже для бюджетной видеокарты (каковой является GV-NX65128D). Попробую определить, какой из компонентов является фактором, ограничивающим производительность. Для того, чтобы удостовериться, как общая производительность зависит от производительности процессора, я использовал соответствующие тесты. Результаты — в таблице.
Таблица 2
1024x768 | 1280x1024 | |
CPU Score | 601 | 599 |
CPU Test1 | 62,2 fps | 61,7 fps |
CPU Test2 | 11,5 fps | 11,5 fps |
Итак, увеличение объема обрабатываемой информации (возросшее число пикселей) не сказывается на производительности, т.е. центральный процессор вполне справляется с поступающим потоком данных. Итак, игровая производительность в нашем случае целиком ограничивается видеоадаптером. Я думаю, причиной является недостаточная пропускная способность шины памяти, ограниченная ее разрядностью 64 бита. Возможно, читателям будет интересно узнать, можно ли хоть как-то исправить положение с минимальными затратами (т.е. не обладая богатым опытом по части оверклокинга и с использованием только тех программных средств, которые поставляются в комплекте). Я сделал попытку увеличить производительность путем увеличения частоты ядра и видеопамяти, для чего использовал утилиту V-Tune2, описанную в предыдущем разделе. Напомню: значения штатных частот ядра/видеопамяти составляют 400/700 МГц соответственно. Попытки разгона показали следующие результаты: частоту ядра удалось поднять всего лишь до значения 450 МГц, температура ядра при этом составляет 80°С (значение температуры можно узнать в диалоговой панели драйвера видеоадаптера). При частоте 460 МГц на изображении уже начинают появляться артефакты, а на частоте 480 МГц, помимо весьма заметных артефактов, имеет место нестабильная работа пакета 3DMark, которая выражается в периодических зависаниях. Отсутствие возможности повысить частоту более чем на 12,5% не позволяет говорить о каком-либо значительном разгонном потенциале, прирост производительности при этом оказался и вовсе смехотворный — 2943 единицы против 2853 на штатной частоте (при разрешении 1024x768), т.е. около 3%. Возможности разгона видеопамяти более широки: мне удалось повысить частоту памяти до значения 910 МГц без каких-либо негативных последствий. Поднимать эту планку я не рискнул, ибо, как я уже говорил, микросхемы видеопамяти практически не охлаждаются, а дополнительного охлаждения я не использовал по причине, указанной ниже. Зависимость производительности от частоты видеопамяти сведена в таблицу. Прирост производительности вычислялся по значениям интегрального показателя 3DMark, который измеряется в безразмерных единицах и рассчитывается как среднее геометрическое от fps в каждом из игровых тестов (с равными весовыми коэффициентами), полученное значение умножается на 250. Все результаты приводятся для разрешения 1024x768.
Таблица 3
Memory Frequency (MHz) | 3Dmark Score | Прирост, % | Game1 (fps) | Game2 (fps) | Game3 (fps) | Game4 (fps) |
700 | 2853 | 0,0 | 100,8 | 16,2 | 15,2 | 20,7 |
805 (15%) | 3069 | 7,57 | 105,7 | 18,1 | 16,9 | 21,6 |
840 (20%) | 3125 | 9,53 | 106,4 | 18,6 | 17,3 | 21,9 |
910 (30%) | 3218 | 12,79 | 107,3 | 19,6 | 18,1 | 22,2 |
Целью последнего эксперимента я ставил выяснить прирост производительности, получаемой при работе компонент видеоадаптера на граничных частотах (450/910 МГц), значение интегрального показателя 3DMark в этом режиме составляет 3322 единицы (разрешение 1024x768), что соответствует 16-процентному приросту. Однако при работе в этом режиме в тесте Game4 начинают появляться слегка заметные артефакты, хотя в целом 3DMark работает стабильно. Полученные результаты не позволяют говорить о каком-либо значительном разгонном потенциале видеоадаптера. Но следует оговориться, что эксперименты, которые я проводил, делались на скорую руку (видеокарта была у меня совсем недолго), т.е. не использовалось никаких дополнительных средств охлаждения, кроме штатного радиатора, при разгоне использовалась утилита V-Tune2, которая позволяет изменять лишь частоты ядра/видеопамяти. Возможно, при более тщательном подходе, используя утилиту RivaTuner, которая позволяет выполнять более тонкую настройку режимов работы отдельных компонент видеоадаптера, применяя принудительное охлаждение, можно достичь большего результата в области повышения частот, но вот даст ли это какой-либо значительный прирост производительности — вопрос спорный — на мой взгляд, овчинка выделки не стоит.
Для того чтобы проводить некоторые рассуждения о том, какой из компонентов видеоадаптера является сдерживающим фактором, следует кратко описать процесс формирования изображения. Построение изображения современным графическим ускорителем — задача не из легких, состоящая из ряда этапов. Упрощенно эту последовательность можно представить следующим образом:
1. Выборка вершин из памяти и запись их в предварительный кэш вершин. Данные о вершине могут храниться в различных форматах и не обязательно единой структурой. Иногда часть атрибутов вершины хранится в одном массиве, вторая часть — в другом. В этом случае выборка данных должна быть многопоточной. Это задача блока выборки геометрии.
2. Каждая вершина из кэша обрабатывается процессором вершин. Здесь над вершинами выполняются такие операции, как трансформация и освещение (Transform&Light — T&L). Обработка выполняется либо вершинным шейдером (вершинный шейдер — программа, которая выполняется видеочипом и реализует математическую обработку параметров вершин: пространственные координаты, текстурные координаты, характеристики цвета,
освещение), либо аппаратным блоком T&L.
3. Обработанные вершины помещаются в промежуточный буфер вершин. Этот буфер служит двум целям: во-первых — накопление данных, готовых для поступления на следующие стадии конвейера, уменьшая вероятность простоя обрабатывающих блоков ускорителя; во-вторых, промежуточный буфер позволяет избежать повторной обработки вершины, если она будет востребована в скором времени повторно (такое происходит очень часто).
4. Вершины объединяются в треугольники и поступают в блок установки треугольников, основная задача которого — отбросить все невидимые треугольники для исключения их последующей обработки.
5. Треугольники разбиваются на фрагменты (см. рис. 1), часть из которых, по результатам Z-теста, отбрасывается как невидимые. Эта операция еще иногда называется HSR (Hidden Space Removal — общее обозначение технологий отсечения невидимых частей сцены в конечном изображении). Результатом этого этапа являются видимые или частично видимые блоки пикселей, т.н. "квады". Квады — это блоки пикселей размером 2x2 — такая группировка пикселей позволяет оптимизировать их закраску. Таким образом, достаточно большая часть пикселей будет отсеяна еще до закраски, поэтому производительность Z-операций должна быть выше производительности закраски пикселей.
6. Далее квады отправляются на установку фрагментов — здесь происходит вычисление необходимых параметров для каждого блока. Именно на этом этапе сказывается оптимизирующий фактор организации пикселей в квады: вычисляются базовые значения параметров для всего блока (C) и их производные (dx, dy), а затем путем интерполяции из одного набора параметров получают все 4 (см. рис. 2).
7. После установки фрагментов выполняется их закраска. Эта задача возлагается на процессор фрагментов, он же выполняет выборку и фильтрацию текстур.
8. После расчета значений цвета пиксельным процессором может выполняться операция смешения (блендинга). Если включен соответствующий режим, результирующие значения цвета и глубины записываются в буфер кадра. Построенное изображение может быть подвергнуто дополнительной обработке для усреднения результатов полноэкранного AA (Anti Aliasing — сглаживание).
Обобщенная блок-схема современного графического ускорителя представлена на рис. 3.
Обращая внимание на интерфейс памяти, можно отметить, что он 4-канальный — вся шина памяти делится на 4 полностью независимых (каждая со своими управляющими сигналами) шины. Для чего это сделано? Все становится достаточно просто, если поразмыслить о том, какие потоки данных поступают в память и считываются из нее. Вершины и текстуры, как правило, только считываются, буфер кадра обычно только записывается, буфер глубины (Z) считывается и записывается. Т.е. мы имеем 4 независимых потока данных. Если эти потоки данных пространственно распараллелить, то можно добиться значительного уменьшения задержек при обращении к данным. Теперь, когда процесс построения изображения более или менее понятен, можно приступать к анализу результатов. Как выяснилось ранее, слабым элементом является видеоадаптер, т.е. центральный процессор успевает подготовить необходимую информацию и записать ее в память. Когда будет получен готовый результат, зависит от того, насколько оперативно эти данные будут считаны, обработаны и записаны в буфер кадра. Обратимся к спецификации чипа. Как видим, он содержит достаточно небольшое количество вычислительных блоков: 4 текстурных и 3 вершинных, — но даже неудавшаяся попытка разгона позволяет говорить о том, что эти блоки, скорее всего, полностью не загружены. В то же время увеличение частоты памяти привело к более или менее заметному результату. Увеличить объем данных, прокачиваемых по шине, можно двумя путями: поднимая частоту обмена (что я и сделал) и/или расширяя саму шину. Вывод напрашивается сам собой: 2- канальный контроллер памяти + ширина шины всего 64 (2*32) бита — вот что является причиной такой ничтожной производительности.
Вывод
Не следует рассматривать эту плату в качестве игрового ускорителя: низкая пропускная способность шины памяти не позволит играть в режимах с высоким разрешением и глубиной цвета при достаточно комфортной частоте кадров. Положение не спасает даже установленная память GDDR2 и расширенные возможности использования системной памяти, адресуемой через PCE Express. Любителям поэкспериментировать и выжать из видеоадаптера максимум производительности она тоже, скорее всего, не понравится. GV-NX65128D — неплохой вариант для домашнего или недорогого мультимедийного компьютера, учитывая хорошее качество 2D-графики (впрочем, тут следует рассматривать каждый экземпляр индивидуально) и вполне достаточные возможности по части вывода видеоизображений.
Петр Мороз
Компьютерная газета. Статья была опубликована в номере 17 за 2006 год в рубрике железо