Главная » Финансы » Перемещение контроллера памяти непосредственно в современные процессоры. Intel будет встраивать контроллеры памяти в процессоры? Процессор с интегрированным контроллером памяти

Перемещение контроллера памяти непосредственно в современные процессоры. Intel будет встраивать контроллеры памяти в процессоры? Процессор с интегрированным контроллером памяти

Кажется, что Intel в этом отношении догоняет AMD. Но, как часто бывает, когда гигант что-то делает, то и шаг вперёд получается гигантским. Если у Barcelona используется два 64-битных контроллера памяти DDR2, топовая конфигурация Intel включает целых три контроллера памяти DDR3. Если установить память DDR3-1333, которую Nehalem тоже будет поддерживать, это даст пропускную способность до 32 Гбайт/с в некоторых конфигурациях. Но преимущество встроенного контроллера памяти кроется не только в пропускной способности. Он существенно снижает задержки доступа к памяти, что не менее важно, учитывая, что каждый доступ стоит несколько сотен тактов. В контексте настольного использования снижение задержек встроенного контроллера памяти можно приветствовать, однако полное преимущество от более масштабируемой архитектуры будет заметно в многосокетных серверных конфигурациях. Раньше при добавлении CPU доступная пропускная способность оставалась прежней, однако теперь каждый новый дополнительный процессор увеличивает пропускную способность, поскольку каждый CPU обладает собственной памятью.

Конечно, чудес ожидать не следует. Перед нами конфигурация Non Uniform Memory Access (NUMA), то есть доступ к памяти будет обходиться по тем или иным накладным расценкам, в зависимости от того, где данные располагаются в памяти. Понятно, что доступ к локальной памяти будет производиться с самыми низкими задержками и самой высокой пропускной способностью, поскольку доступ к удалённой памяти происходит через промежуточный интерфейс QPI, снижающий производительность.


Нажмите на картинку для увеличения.

Влияние на производительность предсказать сложно, поскольку всё зависит от приложения и операционной системы. Intel утверждает, что падение производительности при удалённом доступе по задержкам составляет около 70%, а пропускная способность снижается в два раза по сравнению с локальным доступом. По информации Intel, даже при удалённом доступе через интерфейс QPI, задержки будут ниже, чем на предыдущих поколениях процессоров, где контроллер находился на северном мосту. Однако это касается только серверных приложений, которые уже довольно долгое время разрабатываются с учётом конфигураций NUMA.

Иерархия памяти в Conroe была очень простой; Intel сконцентрировалась на производительности общего кэша L2, который стал лучшим решением для архитектуры, которая нацеливалась, главным образом, на двуядерные конфигурации. Но в случае с Nehalem инженеры начали с нуля и пришли к такому же заключению, что и конкуренты: общий кэш L2 не очень хорошо подходит для "родной" четырёхъядерной архитектуры. Разные ядра могут слишком часто "вымывать" данные, необходимые другим ядрам, что приведёт к слишком многим проблемам с внутренними шинами и арбитражем, пытаясь обеспечить все четыре ядра достаточной пропускной способностью с сохранением задержек на достаточно низком уровне. Чтобы решить эти проблемы, инженеры оснастили каждое ядро собственным кэшем L2. Поскольку он выделен на каждое ядро и относительно мал (256 кбайт), получилось обеспечить кэш очень высокой производительностью; в частности, задержки существенно улучшились по сравнению с Penryn - с 15 тактов до, примерно, 10 тактов.

Затем есть огромная кэш-память третьего уровня (8 Мбайт), отвечающая за связь между ядрами. На первый взгляд архитектура кэша Nehalem напоминает Barcelona, но работа кэша третьего уровня очень отличается от AMD - она инклюзивная для всех нижних уровней иерархии кэша. Это означает, что если ядро попытается получить доступ к данным, и они отсутствуют в кэше L3, то нет необходимости искать данные в собственных кэшах других ядер - там их нет. Напротив, если данные присутствуют, четыре бита, связанные с каждой строчкой кэш-памяти (один бит на ядро) показывают, могут ли данные потенциально присутствовать (потенциально, но без гарантии) в нижнем кэше другого ядра, и если да, то в каком.

Эта техника весьма эффективна для обеспечения когерентности персональных кэшей каждого ядра, поскольку она уменьшает потребность в обмене информацией между ядрами. Есть, конечно, недостаток в виде потери части кэш-памяти на данные, присутствующие в кэшах других уровней. Впрочем, не всё так страшно, поскольку кэши L1 и L2 относительно маленькие по сравнению с кэшем L3 - все данные кэшей L1 и L2 занимают, максимум, 1,25 Мбайт в кэше L3 из доступных 8 Мбайт. Как и в случае Barcelona, кэш третьего уровня работает на других частотах по сравнению с самим чипом. Следовательно, задержка доступа на данном уровне может меняться, но она должна составлять около 40 тактов.

Единственные разочарования в новой иерархии кэша Nehalem связаны с кэшем L1. Пропускная способность кэша инструкций не была увеличена - по-прежнему 16 байт на такт по сравнению с 32 у Barcelona. Это может создать "узкое место" в серверно-ориентированной архитектуре, поскольку 64-битные инструкции крупнее, чем 32-битные, тем более что у Nehalem на один декодер больше, чем у Barcelona, что сильнее нагружает кэш. Что касается кэша данных, его задержка была увеличена до четырёх тактов по сравнению с тремя у Conroe, облегчая работу на высоких тактовых частотах. Но закончим мы на положительной новости: инженеры Intel увеличили число промахов кэша данных L1, которые архитектура может обрабатывать параллельно.

TLB

Уже многие годы процессоры работают не с физическими адресами памяти, а с виртуальными. Среди других преимуществ такой подход позволяет выделять программе больше памяти, чем есть в компьютере, сохраняя только необходимые на данный момент данные в физической памяти, а всё остальное - на жёстком диске. Это означает, что каждый доступ к памяти виртуальный адрес нужно переводить в физический адрес, и для сохранения соответствия приходится использовать огромную таблицу. Проблема в том, что эта таблица получается столь большой, что на чипе её хранить уже не получается - она размещается в основной памяти, причём её можно даже сбрасывать на жёсткий диск (часть таблицы может отсутствовать в памяти, будучи сброшенной на HDD).

Если для каждой операции работы с памятью требовался бы такой этап перевода адресов, то всё работало бы слишком медленно. Поэтому инженеры вернулись к принципу физической адресации, добавив небольшую кэш-память напрямую на процессор, которая хранит соответствие для нескольких недавно запрошенных адресов. Кэш-память называется Translation Lookaside Buffer (TLB). Intel полностью переделала TLB в новой архитектуре. До сих пор Core 2 использовал TLB первого уровня очень маленького размера (16 записей), но очень быстрый и только для загрузок, а также больший кэш TLB второго уровня (256 записей), который отвечал за загрузки, отсутствующие в TLB L1, а также и записи.

Nehalem теперь оснастился полноценным двухуровневым TLB: кэш TLB первого уровня разделён для данных и инструкций. Кэш TLB L1 для данных может хранить 64 записи для маленьких страниц (4K) или 32 записи для больших страниц (2M/4M), а кэш TLB L1 для инструкций может хранить 128 записей для маленьких страниц (как и в случае Core2), а также семь для крупных. Второй уровень состоит из унифицированного кэша, который может хранить до 512 записей и работает только с маленькими страницами. Цель такого улучшения заключается в увеличении производительности приложений, которые используют большие массивы данных. Как и в случае двухуровневой системы предсказания ветвлений, перед нами ещё одно свидетельство серверной ориентации архитектуры.

Давайте на время вернёмся к SMT, поскольку эта технология тоже влияет на TLB. Кэш L1 TLB для данных и TLB L2 динамически распределяются между двумя потоками. Напротив, кэш L1 TLB для инструкций статически распределяется для малых страниц, а выделенный для больших страниц полностью копируется - это вполне понятно, учитывая его малый размер (семь записей на поток).

Доступ к памяти и предварительная выборка

Оптимизированный невыровненный доступ к памяти (Unaligned Memory Access)

В архитектуре Core доступ к памяти приводил к ряду ограничений по производительности. Процессор был оптимизирован для доступа к адресам памяти, выровненным по 64-байтным границам, то есть по размеру одной строчки кэша. Для невыровненных данных доступ был не только медленный, но и выполнение невыровненных инструкций считывания или записи было более накладным, чем в случае выровненных инструкций, независимо от реального выравнивания данных памяти. Причина заключалось в том, что эти инструкции приводили к генерации нескольких микроопераций на декодерах, что снижало пропускную способность с данными типами инструкций. В итоге компиляторы избегали генерировать инструкции подобного типа, подставляя вместо них последовательность инструкций, которые менее накладны.

Так, чтение из памяти, при котором происходил перехлёст двух строчек кэша, замедлялось примерно на 12 тактов, по сравнению с 10 тактами для записи. Инженеры Intel оптимизировали подобный тип обращений, чтобы он выполнялся быстрее. Начнём с того, что теперь нет падения производительности при использовании невыровненных инструкций чтения/записи в случаях, когда данные выровнены в памяти. В других случаях Intel тоже оптимизировала доступ, снизив падение производительности по сравнению с архитектурой Core.

Больше блоков предварительной выборки с более эффективной работой

В архитектуре Conroe Intel особенно гордилась аппаратными блоками предсказания. Как вы знаете, блок предсказания - это механизм, который следит за характером доступа к памяти и пытается предсказать, какие данные потребуются через несколько тактов. Цель заключается в том, чтобы упреждающим образом загрузить данные в кэш, где они будут располагаться ближе к процессору, и вместе с тем максимально использовать доступную пропускную способность тогда, когда процессору она не нужна.

Данная технология даёт замечательные результаты с большинством настольных приложений, но в серверной среде она часто приводила к потере производительности. Есть несколько причин подобной неэффективности. Во-первых, доступы к памяти часто сложнее предсказать в серверных приложениях. Доступ к базе данных, например, отнюдь не линейный - если в памяти запрашивается какой-либо элемент данных, то это не значит, что следующим будет соседний элемент. Это ограничивает эффективность блока предварительной выборки. Но основной проблемой была пропускная способность памяти в многосокетных конфигурациях. Как мы уже говорили раньше, она уже была "узким местом" для нескольких процессоров, но, помимо этого, блоки предварительной выборки приводили к дополнительной нагрузке на этом уровне. Если микропроцессор не выполняет доступ к памяти, то включались блоки предварительной выборки, пытаясь использовать пропускную способность, по их предположению, свободную. Однако блоки не могли знать, нужна ли эта пропускная способность другому процессору. Это означало, что блоки предварительной выборки могли "отбирать" у процессора пропускную способность, которая и так была "узким местом" в таких конфигурациях. Чтобы решить эту проблему, Intel не нашла ничего лучше, как отключить блоки предварительной выборки в таких ситуациях - вряд ли самое оптимальное решение.

Как утверждает Intel, эта проблема уже решена, однако компания не даёт никаких деталей по поводу работы новых механизмов предварительной выборки. Всё, что компания говорит: теперь не нужно отключать блоки для серверных конфигураций. Впрочем, даже Intel ничего не изменила, преимущества от новой организации памяти и, вследствие этого, большая пропускная способность должны нивелировать негативное влияние блоков предварительной выборки.

Заключение

Conroe стал серьёзным фундаментом для новых процессоров, и Nehalem построен как раз на нём. Здесь используется такая же эффективная архитектура, но теперь она намного более модульная и масштабируемая, что должно гарантировать успех в разных рыночных сегментах. Мы не говорим о том, что Nehalem революционизировал архитектуру Core, но новый процессор революционизировал платформу Intel, которая теперь стала достойным соответствием для AMD по дизайну, а по реализации Intel успешно обошла конкурента.


Нажмите на картинку для увеличения.

Со всеми улучшениями, сделанными на данном этапе (интегрированный контроллер памяти, QPI), неудивительно видеть, что изменения исполнительного ядра не такие значительные. Но возвращение Hyper-Threading можно считать серьёзной новостью, да и ряд небольших оптимизаций тоже должны обеспечить заметный прирост производительности по сравнению с Penryn на равных частотах.

Вполне очевидно, что самый серьёзный прирост будет в тех ситуациях, где основным "узким местом" была оперативная память. Если вы прочитали статью целиком, то наверняка заметили, что именно на эту область инженеры Intel уделили максимум внимания. Кроме добавления встроенного контроллера памяти, который, без сомнения, даст наибольший прирост касательно операций доступа к данным, есть и множество других улучшений, как крупных, так и мелких - новая архитектура кэша и TLB, невыровненный доступ к памяти и блоки предварительной выборки.

Учитывая всю теоретическую информацию, мы с нетерпением ждём, как улучшения отразятся на реальных приложениях после выхода новой архитектуры. Мы посвятим этому несколько статей, так что оставайтесь с нами!

Привет, Гиктаймс! Модернизация оперативной памяти - самый элементарный вид апгрейда в ПК, но лишь до тех пор, пока вам везёт, и вы не наткнулись на одну из многочисленных несовместимостей железа. Рассказываем, в каких случаях набор крутой оперативной памяти не «заведётся» на старом ПК, почему на некоторых платформах нарастить ОЗУ можно только с помощью «избранных» модулей и предупреждаем о других характерных причудах железа.


Об оперативной памяти мы знаем, что её много не бывает, и что, в зависимости от древности компьютера, выбирать приходится из очень старой DDR, старой DDR2, зрелого возраста DDR3 и современной DDR4. На этом руководство уровня «ну, вы главное покупайте, а там оно как-нибудь будет работать, или обменяете, если что» можно было бы завершить - пришло время рассмотреть приятные и не очень частности в подборе железа. То есть, случаи, когда:

  • должно ведь работать, но почему-то не работает
  • апгрейд нерентабелен или его лучше произвести «многоходовочкой»
  • модернизацию хочется провести «малой кровью» в соответствии с потенциалом ПК

Проконтролируйте, где находится контроллер

Если вы занимаетесь апгрейдом устаревшего компьютера не только из «любви к искусству», но и из практичных соображений, есть смысл сначала оценить, насколько жизнеспособна аппаратная платформа, прежде чем вкладывать в неё средства. Наиболее архаичные из актуальных - чипсеты для Socket 478 (Pentium IV, Celeron), которые простираются от платформ с поддержкой SDRAM PC133 (чипсет Intel 845, например), сквозь мейнстримные варианты на базе DDR, вплоть до поздних, разительно более современных чипсетов с поддержкой DDR2 PC2-5300 (Intel 945GC и др.).


Раньше контроллеры находились вне процессора, а теперь, так уж сложилось, работают изнутри

На этом фоне альтернативы из лагеря AMD того же времени выглядят менее пестро: все чипсеты под Socket 754, который приютил Athlon 64, представителей микроархитектуры K8, поддерживают память DDR, этот же тип памяти поддерживали процессоры для Socket 939 (Athlon 64 и первые двухъядерники Athlon 64 X2). Причем контроллер памяти в случае с чипами AMD был встроен в процессор - сейчас таким подходом никого не удивишь, однако Intel целенаправленно сохранял контроллер в чипсете, как раз для того, чтобы комбинировать процессоры для одного и того же сокета с новыми типами ОЗУ.

По этой причине последующие чипы AMD для сокета AM2/AM2+ с контроллером ОЗУ под крышкой процессора работали только с DDR2, а Intel с её «долгожителем» Socket 775 растянул удовольствие с DDR по самые помидоры DDR3! В более современных платформах оба производителя процессоров перешли на интегрированный в кристалл СPU контроллер и подобные фокусы поддержкой разномастной RAM отошли в прошлое.

Когда сменить чипсет дешевле, чем раскошеливаться на старую память

Этот громоздкий список нужен не для того, чтобы впечатлить читателей широтой и обилием чипсетов устаревших ПК, а для немного неожиданного маневра в апгрейде. Суть этого нехитрого маневра заключается в том, что иной раз рациональнее будет приобрести материнскую плату с поддержкой более дешёвой и современной памяти, нежели раскошеливаться на уже раритетную ОЗУ предыдущего поколения.

Потому что один и тот же объём памяти DDR2 на вторичном рынке окажется минимум на 50% дороже, чем сопоставимая по ёмкости память DDR3. Не говоря уже о том, что DDR3 ещё не снята с конвейера, поэтому её можно приобрести в новом состоянии, недорогим комплектом.
А ещё с новыми чипсетами появляется возможность расширить ОЗУ до актуальных и сегодня величин. Например, если сравнить цены в российской рознице, то 8 гигабайт (2x 4 Gb) памяти DDR2 с частотой 800 МГц обойдутся вам эдак в 10 тысяч рублей, а такой же объём памяти стандарта DDR3 с частотой 1600 МГц (Kingston Value RAM KVR16N11/8, например) - в 3800-4000 рублей. С учётом продажи-покупки материнской платы для старого ПК затея выглядит разумно.

Реалии модернизации компьютеров с «нативной» поддержкой DDR и DDR2 всем давно известны:

  • модули памяти с различными таймингами и частотой чаще всего умудряются сработаться, а «выравнивание» происходит либо по профилю SPD в менее производительном модуле, либо (что хуже), материнская плата выбирает стандартный для себя профиль работы с RAM. Как правило, с минимально допустимой тактовой частотой.
  • число модулей, в идеале, должно быть равно числу каналов . Две планки памяти объёмом 1 Гбайт каждая в старом ПК будут работать быстрее, нежели четыре модуля объёмом 512 Мбайт. Меньше модулей - ниже нагрузка на контроллер, выше эффективность.


Два канала в контроллере - два модуля памяти для максимальной производительности. Остальное - компромиссы между ёмкостью и скоростью
  • в двухканальном режиме эффективнее работают модули равного объёма . Иными словами 1 Гбайт + 1 Гбайт окажутся лучше, чем 1 Гбайт + 512 Мбайт + 512 Мбайт.
  • оцените производительность платформы до покупки памяти . Потому что некоторые чипсеты не раскрывают потенциал даже своего «допотопного» типа RAM. Например, платформа Intel 945 Express оборудована двухканальным контроллером DDR2 с поддержкой частоты до 667 МГц. А это значит, что купленные вами модули DDR2 PC6400 платформа распознает, но модули будут ограничены в быстродействии и станут работать только в качестве PC2-5300, «идентичных натуральным».


Сокет Intel LGA775 - один из вариантов, когда купить материнскую плату с поддержкой DDR3 проще и дешевле, чем апгрейдить память с платформой в рамках старой версии DDR

И, вроде бы, этого списка нюансов достаточно, чтобы захотеть «перетянуть» компьютер на базе LGA775 на чипсет с поддержкой DDR3. Однако, вы таки будете смеяться, да только в модернизации старой платформы с помощью новой ОЗУ тоже есть свои нюансы.

В дебютных платформах с поддержкой DDR3 (чипсеты Intel x4x и x5x и аналоги AMD того же времени) контроллеры способны работать только модулями старого образца. Абсурдная ситуация? Да, но факт остаётся фактом.

Дело в том, что старые системы не владеют «языком общения» с модулями, которые оснащены чипами памяти высокой плотности. На бытовом уровне это означает, что вот этот модуль, у которого 4 гигабайта «размазаны» на восемь чипов на лицевой стороне печатной платы, работать в старом ПК не сможет. А старый модуль, у которого этот же объём реализован на 16 чипах (по 8 с каждой стороны) при аналогичном объёме и частоте будет работоспособен.

Такие проблемы с совместимостью характерны, например, для десктопного Intel G41 Express (тот самый, что тянет на себе немалую долю выживших Core 2 Duo или Core 2 Quad) или мобильного Intel HM55 (ноутбуки на базе первого поколения Intel Core на базе микроархитектуры Nehalem).

Иногда производители материнских плат/ноутбуков выпускают новые версии BIOS для того, чтобы научить старые платформы работать с новыми ревизиями ОЗУ, но чаще всего ни о какой долговременной поддержке старого оборудования речи не идёт. И, к сожалению, ни о каких спецсериях памяти для владельцев «устаревших, но не совсем» ПК речи не идёт - производство памяти ушло вперёд и поворачивать его вспять очень дорого.

Чтобы не забивать голову такими понятиями, как «плотность чипа памяти», на бытовом уровне владельцам старых ПК советуют искать Double-sided DIMM , двусторонние модули памяти, которые с бОльшей вероятностью будут совместимы с дебютными платформами на базе DDR3. В модельной линейке Kingston подходящим вариантом будет HyperX Blu KHX1333C9D3B1K2/4G - 4-гигабайтный модуль DDR3 для десктопов с шестнадцатью модулями памяти на борту. Его не так легко найти в продаже, но хочешь 16 Гбайт на старом ПК - умей вертеться.

И да, «лучшие из архаичных» чипсеты, такие как Intel P35 Express, например, тоже довольствуются поддержкой DDR3 на частоте 1333 вместо типичных для бюджетных платформ современности 1600 МГц.


HyperX Blu KHX1333C9D3B1K2 - один из немногочисленных способов заполучить 16 Гбайт ОЗУ в старых ПК

Нет разнообразия - нет проблем

После долговременного «оплота сопротивления» с контроллером памяти в северном мосту платформ Intel эксперименты прекратились. Все новые платформы Intel и AMD предусматривали контроллер под крышкой самого CPU. Это, конечно, плохо с точки зрения долгожительства платформы (нельзя проделать трюк и «пересесть» на новый тип памяти со старым процессором), но производители RAM подстроились и, как видите, память DDR3 не утратила свою популярность даже в 2017 году. Её носителями сегодня являются следующие платформы:
AMD Intel
am3 lga1366
am3+ lga1156
fm1 lga1155
fm2 lga1150
fm2+ lga2011

Список архитектур процессоров на базе этих платформ намного более обширный! А вот многообразия в выборе памяти - меньше, точнее его почти нет. Единственное исключение - процессоры AMD для сокета AM3, которые, на радость экономным покупателям, совместимы с сокетом AM2, AM2+. Соответственно, «красные» оборудовали такие процессоры универсальным контроллером, который поддерживает и память DDR2 (для AM2+), и DDR3. Правда, чтобы «раскочегарить» DDR3 на Socket AM3 до частоты 1333 и 1600 МГц, придётся дополнительно повозиться с настройками.


Примерно так соотносились новые компьютеры на базе DDR3 и конкурирующих типов памяти в недавнем прошлом

Принципы подбора памяти в случае с платформами на базе DDR3 таковы:

  • для FM1, FM2 и FM2+ , если речь идёт об APU с мощной интегрированной графикой, можно и нужно выбирать наиболее производительную оперативную память. Даже старенькие чипы на базе FM1 способны совладать с DDR3 на частоте 1866 МГц, а чипы на микроархитектуре Kaveri и её «рестайлинге» Godavari в некоторых случаях выжимают все соки даже из экстремально разогнанной DDR3 на частоте 2544 МГц! И это не «кукурузные», а действительно полезные в реальных сценариях работы мегагерцы. Поэтому оверклокерская память таким компьютерам просто необходима.


Прирост производительности в APU AMD в зависимости от частоты RAM (источник: ferra.ru)

Начать стоит, к примеру, с модулей HyperX HX318C10F - они уже «в базе» работают при 1866 МГц и CL10, а в разгоне придутся как раз кстати чувствительным к тактовой частоте гибридным процессорам AMD.


Гибридные процессоры AMD остро нуждаются в высокочастотной памяти

  • «антикварные» процессоры Intel на платформах LGA1156 и её серверного собрата LGA1366 способны оседлать высокочастотную DDR3 только в случае корректно подобранного множителя. Сам Intel гарантирует стабильную работу исключительно в рамках диапазоне «до 1333 МГц». Кстати, не забывайте о том, что помимо поддержки регистровой памяти с ECC, серверные платформы LGA1366 и LGA2011 предлагают трёх- и четырёхканальные контроллеры DDR3. И остаются, пожалуй, единственными кандидатами на апгрейд ОЗУ до 64 Гбайт, потому что не-регистровые модули памяти объёмом 16 Гбайт в природе почти не встречаются. Зато в LGA2011 разгон памяти стал легко осуществим вплоть до 2400 МГц.
  • практически все процессоры на базе микроархитектур Sandy Bridge и Ivy Bridge (LGA1155) поддерживают оперативную память с частотой до 1333 МГц. Поднять частоту тактового генератора и получить таким образом «лёгкий» разгон в этом поколении Intel Core уже нельзя. Но модели с разблокированным множителем и «правильной» материнской платой способны выйти далеко за рамки пресловутых 1333 МГц, поэтому для Z-чипсетов и процессоров с суффиксом K есть смысл потратиться на модули HyperX Fury HX318C10F - штатные 1866 МГц «гонибельны» практически до предельных для Bridge-процессоров величин. Мало не покажется!
  • LGA1150 , носитель чипов на базе микроархитектур Haswell и Broadwell стала последней из «гражданских» платформ Intel с поддержкой DDR3, но в методах взаимодействия с ОЗУ почти не изменилась со времён Sandy Bridge и Ivy Bridge. Разве что поддержка массовых моделей DDR3 с частотой 1600 МГц наконец воплотилась в жизнь. Если же говорить о разгоне, то теоретический максимум для процессоров с разблокированными множителями при оверклокерских матплатах составляет 2933 МГц! Максимум есть максимум, но с поддержкой профилей XMP в современных модулях DDR3 достичь высоких частот на стареющим типе памяти уже не сложно.
Кстати, именно в эпоху LGA1150 усилиями разработчиков ноутбуков в обиход вошла память DDR3L (хотя её производство стартовало ещё в 2008 году). Она потребляет чуть меньше энергии (1,35В против 1,5В в «просто» DDR3), совместима со всеми старыми чипсетами, которые вышли до её распространения на рынке. А вот устанавливать DDR3 при 1,5В в ноутбуки, которым «по зубам» только DDR3L уже нежелательно - память либо не будет работать вообще, либо сработается с компьютером некорректно.

DDR4 - самая быстрая, самая элементарная в апгрейде и покупке память

Язык не поворачивается назвать память DDR4 SDRAM новинкой - всё-таки процессоры Intel Skylake , первые массовые CPU с DDR4 на борту, вышли ещё 2015 году и успели заиметь «рестайлинг» в лице чуть более оптимизированных и эффективных в разгоне Kaby Lake . А в 2016 году платформу с поддержкой DDR4 продемонстрировала AMD. Правда, всего лишь продемонстрировала, потому что сокет AM4 предназначен для процессоров AMD «наконец-то серьёзная конкуренция» RyZEN, которые только-только рассекретили.


DDR4 ещё совсем юн, но для того, чтобы раскрыть потенциал четырёхканальных контроллеров платформы Intel LGA 2011-v3, уже сейчас нужна оверклокерская память

С выбором памяти для сверхновых платформ всё предельно просто - частота массовых модулей DDR4 стартует с 2133 МГц (они достижимы и на DDR3, но «в прыжке»), а объём - с 4 Гбайт. Но покупать «стартовую» конфигурацию DDR4 сегодня настолько же недальновидно, как довольствоваться DDR3 с частотой 800 МГц на заре её появления.

Встроенный в процессоры на базе платформы LGA1151 контроллер памяти двухканальный, а это значит, что по-хорошему нужно уложиться в пару модулей, ёмкости которых хватит для современных игр. Сегодня такой объём составляет 16 Гбайт (нет, мы не шутим - с 8 Гбайт ОЗУ в 2017 году уже не получится «ни в чём себе не отказывать»), а что касается тактовой частоты, правильным мейнстримом стала память DDR4-2400.

В серверных/экстремальных процессорах для платформы LGA 2011-v3 контроллер памяти уже четырёхканальный, а из всех разновидностей ОЗУ де-юре поддерживается только DDR4-2133, но разгон памяти на базе чипсета Intel X99 с Intel Core i7 Extreme даётся не легко, а очень легко. Ну а компьютеру для максималистов нужна память для максималистов - например, «жэстачайшая» HyperX Predator DDR4 HX432C16PB3K2 с тактовой частотой 3200 МГц. Согласно принципу «гулять так гулять» укомплектовывать платформу LGA 2011-v3 нужно всеми четырьмя модулями - только в этом случае четырёхканальный контроллер сможет реализовать весь скоростной потенциал подсистемы памяти.

Чтобы не зубрить правила и исключения

Что можно добавить к описанным выше нюансам выбора? Много чего: специфические моноблоки неттопы с нереференсным дизайном комплектующих, ноутбуки одной и той же модели с абсолютно разным потенциалом для апгрейда, отдельные капризные модели материнских плат и другие «грабли», на которые легко наткнуться, если вы не следили за тенденциями в железе на форумах энтузиастов.

На этот случай Kingston предлагает онлайн-конфигуратор . С его помощью можно подобрать гарантированно совместимую и эффективную оперативную память для десктопов, рабочих станций, неттопов, ультрабуков, серверов, планшетов и других устройств.
Есть резон сверить совместимость начинки ПК с памятью, которую вы присмотрели для покупки, чтобы не возвращаться в магазин и пояснять консультантам, что «память-то работоспособная, но моему компьютеру нужна DDR3-1600, которая не совсем обычная DDR3-1600».

Не бросайте стариков на произвол судьбы!

Вам не показалось - модернизация памяти и вправду тем хлопотнее, чем старее компьютер. Эта статья не охватывает все возможные трудности и частности в выборе памяти (это почти невозможно физически, и вы бы утомились одолевать сводку подобных мелочей целиком) Но это не повод отправлять всё ещё работоспособное железо на свалку истории.


Зажечь можно в любом возрасте

Потому что устаревшие с наших оверклокерско-энтузиастских колоколен ПК всё ещё могут сослужить добрую службу менее амбициозным пользователям или переквалифицироваться в домашний сервер/медиацентр, а уж очередную песню «бессмертному» Sandy Bridge, который отметил шестилетие и всё ещё хорош, сегодня исполнять не будем. Высокого вам быстродействия и попутного ветра в модернизации ПК!

Быстрая оперативная память - это хорошо, а быстрая оперативная память со скидкой - ещё лучше! Поэтому не упустите возможность приобрести до 8 марта любой из комплектов памяти HyperX Savage DDR4 и HyperX Predator DDR4 со скидкой 10% по промокоду DDR4FEB в Юлмарте. Памяти много не бывает, а производительной и крутой памяти для новых платформ ПК - тем более!

Для получения дополнительной информации о продукции Kingston и HyperX обращайтесь на официальный сайт компании . В выборе своего комплекта HyperX поможет

Итак, ранее выше мы уже говорили о том, что как команды, так и данные, попадают в процессор из оперативной памяти. На самом деле всё немного сложнее. В большинстве современных x86-систем (то есть компьютеров на базе x86-процессоров), процессор как устройство к памяти обращаться вообще не может, так как не имеет в своем составе соответствующих узлов. Поэтому он обращается к «промежуточному» специализированному устройству, называемому контроллером памяти, а уже тот, в свою очередь - к микросхемам ОЗУ, размещенным на модулях памяти. Модули вы наверняка видели - это такие длинные узкие текстолитовые «планочки» (фактически - небольшие платы) с некоторым количеством микросхем на них, вставляемые в специальные разъемы на системной плате. Роль контроллера ОЗУ, таким образом, проста: он служит своего рода «мостом»* между памятью и использующими ее устройствами (кстати, к ним относится не только процессор, но об этом - чуть позже). Как правило, контроллер памяти входит в состав чипсета - набора микросхем, являющегося основой системной платы. От быстродействия контроллера во многом зависит скорость обмена данными между процессором и памятью, это один из важнейших компонентов, влияющих на общую производительность компьютера.

* - кстати, контроллер памяти физически находится в микросхеме чипсета, традиционно называемой «северным мостом».

Процессорная шина

Любой процессор обязательно оснащён процессорной шиной, которую в среде x86 CPU принято называть FSB (Front Side Bus). Эта шина служит каналом связи между процессором и всеми остальными устройствами в компьютере: памятью, видеокартой, жёстким диском, и так далее. Впрочем, как мы уже знаем из предыдущего раздела, между собственно памятью и процессором находится контроллер памяти. Соответственно: процессор посредством FSB связывается с контроллером памяти, а уже тот, в свою очередь, по специальной шине (назовём её, не мудрствуя лукаво, «шиной памяти») - с модулями ОЗУ на плате. Однако, повторимся: поскольку «внешняя» шина у классического x86 CPU всего одна, она используется не только для работы с памятью, но и для общения процессора со всеми остальными устройствами.

Различия между традиционной для x86 CPU архитектурой и K8/AMD64

Революционность подхода компании AMD состоит в том, что её процессоры с архитектурой AMD64 (и микроархитектурой, которую условно принято называть «K8») оснащены множеством «внешних» шин. При этом одна или несколько шин HyperTransport служат для связи со всеми устройствами кроме памяти, а отдельная группа из одной или двух (в случае двухканального контроллера) шин - исключительно для работы процессора с памятью. Преимущество интеграции контроллера памяти прямо в процессор, очевидно: «путь от ядра до памяти» становится заметно «короче», что позволяет работать с ОЗУ быстрее. Правда, имеются у данного подхода и недостатки. Так, например, если ранее устройства типа жёсткого диска или видеокарты могли работать с памятью через выделенный, независимый контроллер - то в случае с архитектурой AMD64 они вынуждены работать с ОЗУ через контроллер, размещённый на процессоре. Так как CPU в данной архитектуре является единственным устройством, имеющим прямой доступ к памяти. Де-факто, в противостоянии «внешний контроллер vs. интегрированный», сложился паритет: с одной стороны, на данный момент AMD является единственным производителем десктопных x86-процессоров с интегрированным контроллером памяти, с другой - компания вроде бы вполне довольна этим решением, и не собирается от него отказываться. С третьей - Intel тоже не собирается отказываться от внешнего

Контроллер памяти теперь неотъемлемая составляющая самого процессора. В процессорах AMD интегрированный контроллер памяти использовался уже более шести лет (до появления архитектуры Sandy Bridge), так что те, кто этим вопросом уже интересовался, достаточное количество информации накопить успели. Однако для процессоров Intel, занимающих куда большую долю рынка (а, следовательно, и для большинства пользователей) актуальным изменение характера работы системы памяти стало только вместе с выходом действительно массовых процессоров компании с интегрированным контроллером памяти.

Перемещение контроллера памяти непосредственно в современные процессоры достаточно сильно сказывается на общей производительности компьютерных систем. Главным фактором тут является исчезновение «посредника» между процессором и памятью в лице «северного моста». Производительность процессора больше не зависит от используемого чипсета и, как правило, вообще от системной платы (т.е. последняя превращается просто в объединительную панель).

Оперативная память следующего поколения, DDR4 SDRAM, привнесла в серверные, настольные и мобильные платформы значительное увеличение производительности. Но достижение новых рубежей быстродействия требует радикальных изменений в топологии подсистемы памяти. Эффективная частота модулей DDR4 SDRAM составит от 2133 до 4266 МГц. Перспективные модули памяти не только быстрее, но и экономичнее своих предшественников. Они используют пониженное до 1,1-1,2 В напряжение питания, а для энергоэффективной памяти штатным является напряжение 1,05 В. Производителям чипов DRAM при изготовлении микросхем DDR4 SDRAM пришлось прибегать к использованию самых передовых производственных технологий.

Массовый переход на использование DDR4 SDRAM планировался на 2015 год, но при этом необходимо иметь в виду, что экстремально высокие скорости работы памяти нового поколения потребовали внесения изменений в привычную структуру всей подсистемы памяти. Дело в том, что контроллеры DDR4 SDRAM смогут справиться лишь с единственным модулем в каждом канале. Это значит, что на смену параллельному соединению модулей памяти в каждом канале придёт чётко выраженная топология точка-точка (каждая установленная планка DDR4 будет задействовать разные каналы). Чтобы гарантировать высокие частоты спецификация DDR4 поддерживает только один модуль на каждый контроллер памяти. Это означает, что производителям потребовалось увеличить плотность чипов памяти и создать более продвинутые модули. В то же время тайминги продолжали расти, хотя время доступа продолжало снижаться.

Компания Samsung Electronics освоила выпуск многоярусных 512-Мбит чипов DRAM по технологии TSV. Именно эту технологию планирует использовать для выпуска DDR4. Таким образом, планируется добиться выпуска относительно недорогих чипов памяти DDR4 очень высокой ёмкости.

Ещё один хорошо известный и уже зарекомендовавший себя способ - использование техники так называемой "разгружающей памяти" - LR-DIMM (Load-Reduce DIMM). Суть идеи состоит в том, что в состав модуля памяти LR-DIMM входит специальный чип (или несколько чипов), буферизирующих все сигналы шины и позволяющих увеличить количество поддерживаемой системой памяти. Правда, не стоит забывать про единственный, пожалуй, но от этого не менее существенный недостаток LR-DIMM: буферизирование неизбежно ведёт к дополнительному увеличению латентности, которая у памяти DDR4 по определению будет и без того немаленькая. Для сегмента серверных и high-end вычислений, где востребован очень большой объём памяти, предлагается совершенно иной выход из ситуации. Здесь предполагается использование высокоскоростной коммутации специальными многовходовыми чипами-коммутаторами.

Компании Intel и Micron совместными усилиями создали новый тип системы хранения данных, который в одну тысячу раз быстрее самой передовой памяти NAND Flash. Новый тип памяти, получивший название 3D XPoint, показывает скорости чтения и записи в тысячу раз превышающие скорость обычной памяти NAND, а также обладает высокой степенью прочности и плотности. Новостное агентство CNET сообщает, что новая память в десять раз плотнее чипов NAND и позволяет на той же физической площади сохранять больше данных и при этом потребляет меньше питания. Intel и Micron заявляют, что их новый тип памяти может использоваться как в качестве системной, так и в качестве энергозависимой памяти, то есть, другими словами, ее можно использовать в качестве замены как оперативной RAM-памяти, так и SSD. В настоящий момент компьютеры могут взаимодействовать с новым типом памяти через интерфейс PCI Express, однако Intel говорит, что такой тип подключения не сможет раскрыть весь потенциал скоростей новой памяти, поэтому для максимальной эффективности памяти XPoint придется разработать новую архитектуру материнской платы.

Благодаря новой технологии 3DXpoint (кросс-поинт) ячейка памяти меняет сопротивление для различения между нулем и единицей. Поскольку ячейка памяти Optane не одержит транзистора, плотность хранения данных в памяти Optane превышает в 10 раз показатели NAND Flash. Доступ к индивидуальной ячейке обеспечивает сочетание определенных напряжений на пересекающихся линиях проводников. Аббревиатура 3D введена поскольку ячейки в памяти расположены в несколько слоев.

Уже в 2017 году технология получила широкое применение и будет использоваться как в аналогах флеш-карт, так и в модулях оперативной памяти. Благодаря новой техноголии, компьютерные игры получат мощнейшее развитие, ведь сложные по объему памяти локации и карты будут загружаться мгновенно. Intel заявляет о 1000-кратном превосходстве нового типа памяти, по сравнению с привычными нам флеш-картами и жесткими дисками. Устройства под брендом Optane будет производить компания Micron с использованием 20-нм техпроцесса. В первую очередь будет произведен выпуск 2.5 дюймовых твердотельных накопителей SSD, но также выйдут диски SSD с другими типоразмерами, дополнительно компания выпустит модули оперативной памяти Оптейн DDR4 для серверных платформ Интел.

C момента появления процессоров на ядре Nehalem, одним из их преимуществ все считали интегрированный трехканальный контроллер памяти. Не просто интегрированный контроллер памяти (ИКП сокращенно), а именно трехканальный . Понятно, чем это «круто» - все-таки одноканальные и двухканальные контроллеры памяти у AMD были еще за пять лет до этого, так что дополнительный канал, да еще и наиболее скоростной на данный момент памяти типа DDR3, выглядел весьма серьезным преимуществом. По мнению многих пользователей, также и одним основных факторов, которым процессоры линейки Core i7 обязаны своей высокой производительностью. Стоит заметить, что сама компания Intel это мнение никак не опровергала, за что и немного поплатилась - по-настоящему массовые процессоры архитектуры Nehalem, которые будут выпущены в начале осени, рассчитаны на конструктив LGA1156, предполагающий использование лишь двух каналов памяти. Казалось бы, серьезный недостаток новых моделей, который неспособен будет позволить им конкурировать со старшими братьями. Но так ли это?

В обзорах материнских плат мы уже пробовали оценить полезность многоканального режима памяти в процессорах под LGA1366, и результаты оказались, мягко говоря, неутешительными. Для режимов, разумеется, а не для пользователей. Однако проверки проводились на весьма ограниченном количестве приложений, так что окончательного ответа на вопрос, нужен ли трехканальный режим на практике, они не давали. Сейчас мы решили восполнить этот пробел. Точнее, сначала просто возникло желание опробовать не трех-, а двухканальный режим, для последующего более корректного сравнения производительности Core i7 900-й и 800-й серий: чтобы потом не строить гипотез о том, что сильнее всего повлияло на результаты (если они, действительно, окажутся существенно различными). Однако просто «прогнать» тесты из последней версии нашей методики в еще одной конфигурации - слишком скучно, да и из такого противостояния всего двух вариантов хорошей статьи получиться не может, поэтому мы немного усложнили задачу.

Конфигурация тестовых стендов

Все тестирование проводилось с использованием процессора Core i7 920, материнской платы Intel DX58SO («Smackover») и референс-видеокарты на базе NVIDIA GeForce GTX 275 - словом, как все положено, согласно версии 4.0 нашей методики тестирования. Различалась только память. В дополнение к обычно используемому нами комплекту Kingston , мы взяли еще и кит от Apacer, имеющий вдвое меньший объем. Все модули поддерживают работу на более высоких частотах, нежели официальные для Core i7 920 1066 МГц, но мы тестировали их именно на этой частоте по схеме 8-8-8-19.

Получилось четырех конфигурации, представленные в таблице:

Почему именно они? Две трехканальных нам нужны, чтобы четко понять - что важно в каком-то приложении: трехканальность или суммарный объем? Это будет хорошо видно по результатам: если и 3×2, и 3×1 в победителях, значит, польза от трех каналов есть, если только первый, значит, приложению просто нужно много памяти (точнее, оно способно ее использовать). Без 3×1 к однозначному ответу прийти было бы сложно. Полезность участия в тестах 2×2 очевидна - именно таким образом комплектуются современные системы на Core 2 и процессорах AMD, и именно он на некоторое время станет весьма массовым для систем на LGA1156 (конечно, можно было бы протестировать память и в конфигурации 2×1, но это уже с точки зрения систем, не относящихся к бюджетному сектору, совсем не интересно). 1×4 выглядит крайне синтетичным, поскольку вряд ли кто-то, имея два модуля памяти по 2 ГБ, будет их устанавливать в один канал, «презрев» остальные, однако… Он нам нужен для повышения общей образованности. Да и модули DDR3, емкостью 4 ГБ, уже появились. К сожалению, пока это экзотика, даже до наших рук не добравшаяся (иначе бы в списке тестируемых обязательно был бы и вариант 2×4), однако массовое распространение на рынке, как таких модулей, так и китов на их основе лишь вопрос времени.

Подробные результаты всех подтестов, как обычно, представлены в таблице , в формате Excel. Заметим, что в сегодняшнем тестировании они будут иногда даже более интересными, чем общие усредненные показатели по группам, так что тем, кому интересна детальная информация, не стоит отказывать себе в удовольствии с ними познакомиться.

Пристрелка

Но для начала мы решили проверить производительность каждого из вариантов в синтетическом приложении, в роли которого сегодня выступал Everest 4.6 (да, это далеко не последняя версия популярного тестового пакета, однако и «реальный» софт обновляется далеко не мгновенно, так что эти результаты нам весьма интересны даже если предположить слабую оптимизированность 4.6 под Nehalem).

И первые же результаты несколько обескураживают - как мы видим, никакого видимого прироста от задействования третьего канала ИКП нет. Более того - три модуля от Apacer справляются с этой задачей медленнее, чем два от Kingston. В то же время одноканальный режим - явный аутсайдер. Теоретическая ПСП DDR3 1066 составляет 8528 МБ/с, во что мы и уперлись - это понятно. Но добавление еще одного канала увеличивает скорость чтения далеко не в два, а менее чем в полтора раза, а третий вообще ничего не дает.

Со скоростью записи все еще веселее - одноканальный режим честно уперся в теоретическую ПСП, а увеличение количества каналов дало лишь менее 20% во всех случаях.

И, наконец, задержки доступа. Очевидный лидер здесь - двухканальный режим (напомним, что на этой диаграмме чем меньше цифры, тем лучше), хотя и одноканальный доступ дело не сильно ухудшает, но в трехканальном режиме задержки сравнительно сильно возрастают: на четверть.

Уже можно делать определенные выводы. Как мы помним из поведения других архитектур с ИКП (AMD K8/K10), они наиболее восприимчивы именно к задержкам при доступе к памяти, что очень заметно в реальных приложениях. Вряд ли Nehalem будет вести себя строго наоборот. Причем все это на фоне одинаковых скоростей чтения и записи, то есть двухканальный режим должен стать лидером. Одноканальный - уже не факт, что будет слишком быстрым: задержки меньше, но и ПСП гораздо ниже, а это не может не сказаться. Насколько сильно - мы и проверим. И попутно посмотрим, как разные приложения относятся к разному полному объему памяти: синтетические бенчмарки никакой информации по этому поводу дать не могут.

3D-визуализация

В аутсайдерах оказались обе трехканальных конфигурации, из чего можно сделать вывод, что главное для этой группы приложений - задержки доступа. Но эти два варианта ведут себя по-разному, а изучение подробных результатов тестов показывает достаточно пеструю картину, из чего можно сделать вывод, что некоторым приложениям уже недостаточно не только трех, но и четырех гигабайт памяти.

Рендеринг трёхмерных сцен

Рендеринг вообще мало восприимчив к характеристикам системы памяти, что можно было предполагать и изначально - здесь главное именно «числодробительные» способности вычислительных ядер и их количество (да и «виртуальные» потоки вычисления тоже воспринимаются положительно). Причем и к объему памяти требований особых нет - лишь бы ее хватало для просчитываемой сцены и накладных расходов. Для наших тестов вполне достаточно 3 ГБ, что и демонстрирует нам диаграмма выше.

Научные и инженерные расчёты

А в этой группе появляется еще один класс приложений, в дополнение к тем, кому нужно как можно больше памяти и кому объем не важен - те, кто начинает в зависимости от увеличения ОЗУ работать медленнее. На первый взгляд, ситуация необъяснимая - если скорость падает от нехватки памяти, это понять легко, но избыток просто никто не должен «заметить». С другой стороны - а почему не должен? Эффективность кэширования вполне может зависеть от объема ОЗУ и даже должна от него зависеть. Если конкретное приложение использует лишь небольшой объем памяти, причем постоянный, ему будет «доставаться» разный объем кэш-памяти процессора. Например, при шести установленных гигабайтах лишь половина из 8 МБ кэша L3 будет отведена для данных программы «переднего плана» (не забываем, что в оставшейся памяти тоже может кто-то «жить», пусть и не очень активно, но на кэш при этом претендовать), а при трех их обслуживанием будут заниматься уже 2/3 от 8 МБ. Любопытный эффект, конечно, жаль только несколько в стороне от основной темы нашего исследования лежащий. С ней все, как обычно - в среднем, самым быстрым оказывается двухканальный режим, а из двух вариантов трехканального, несмотря на наличие упомянутых выше приложений-ренегатов, производительнее тот, где суммарный объем памяти выше.

Растровая графика

В основном, все понятно, поскольку среди растровых редакторов нам встречаются все три уже определенных «группы» приложений. Хотя и с некоторыми вариациями - так, например, обоим продуктам Corel все равно, сколько памяти и какой - 3 или 4 ГБ неважно, но лишь бы не 6. Но обнаружилось просто очень «памятелюбивое» приложение - Adobe Photoshop. Причем тут очень интересен не общий результат подтестов, а некоторые из них в отдельности. Точнее, один - Convert. И настолько интересен, что продублируем в статье соответствующий кусок таблицы с «сырыми» данными.

Core 2 Quad Q9300 2×2 Core i7 920 3×2 Core i7 920 2×2 Core i7 920 1×4 Core i7 920 3×1
0:09:07 0:04:45 0:08:05 0:08:12 0:17:42

Вывод? Несмотря на то, что большинство обзоров в сети, где сравниваются процессоры разных архитектур в этом приложении (в меньшинстве обзоров теста по Photoshop просто нет, так что можно даже сказать, что во всех статьях такого рода), утверждается, что Core i7 просто идеальный процессор для Photoshop, как мы видим, ничего особо выдающегося в нем нет. Идеальным тут является не архитектура ядра, а количество памяти. При 6 ГБ Core i7 920 вдвое обгоняет Core 2 Quad Q9300, обеспеченный всего 4 ГБ. Именно такие сравнения в большинстве статей и встречаются (в том числе и на нашем сайте, но и прочие ресурсы ведут себя аналогично): 3х2 для процессоров под LGA1366 и 2х2 для Core2, AMD Phenom и т.п. Но если мы ограничим первый из процессоров теми же 4 ГБ (причем неважно, каким образом набранными), то выясняется… что отличие от Core 2 Quad вполне укладывается в допустимое, с точки зрения разницы в тактовой частоте. А если мы «отберем» у Core i7 еще всего один гигабайт памяти (казалось бы - 3 или 4: невелика разница), то результат ухудшится еще вдвое ! Это наиболее показательный пример, однако и другие подтесты ведут себя сходным образом, хоть микроскопическую, но разницу находят всегда. И ничего не поделаешь - Photoshop действительно память «любит», причем чем больше «весят» обрабатываемые в нем файлы, тем больше «любит», а все утилиты тестирования производительности в данном приложении (а не только наши самописные тесты), естественно, оперируют именно большими файлами.

Впрочем, нельзя сказать, что в высоких результатах совсем нет заслуги самого Core i7, а только преференции от большого количества памяти. Трехканальный ИКП как раз и позволяет установить больше памяти при прочих равных условиях. Но об этом подробно мы поговорим чуть позже.

Сжатие данных

Программы-архиваторы не умеют использовать слишком большой объем памяти, поэтому им он просто вредит - к доступной емкости кэш-памяти они очень восприимчивы. К задержкам основного ОЗУ еще более восприимчивы, поэтому и имеем такую картину - самой медленной конфигурацией является 3х2, а выйти на первое место 3х1 мешает латентность.

Компиляция (VC++)

Компилируемый нами проект большого количества памяти не требует, так что важны задержки, а также немного скорости чтения и записи. Поэтому двухканальный режим доступа к памяти здесь оказался лучшим, но одноканальный лишь чуть-чуть выиграл у трехканальных - латентность ниже, но и прочие параметры тоже.

Java

Тест Java-машины оказался очень восприимчив к скорости чтения из памяти, но и ее общий объем ему достаточно важен. Именно такую картину можно было бы ожидать везде, если бы верны были наивные предположения о том, что трехканальный доступ к памяти является залогом высокой производительности, но памяти при этом много не бывает. Жаль только, что среди протестированных приложений эти мечты подтверждены буквально пару-тройку раз. Но, как раз, пример, когда подтверждены.

Кодирование аудио

Прекрасная задача - требования к системе памяти, можно сказать, отсутствуют. При рендеринге они тоже почти отсутствовали, а здесь - совсем отсутствуют. Идеальный бенчмарк процессоров, правда, отвратительный для тестирования системы в целом.

Кодирование видео

А вот тут все почти так, как должно быть в «наивной теории». Портит картинку только недостаточно заметный проигрыш двухканального режима. Точнее, будет сказать, почти незаметный. Да и тому, что он вообще есть, мы обязаны ровно одному приложению - DivX. Пример хорошей оптимизации под все особенности сегодняшние Core i7. Как он поведет себя на «завтрашних» будем проверять уже менее чем через месяц.

Игровое 3D

Очень, очень спокойная немного непонятная общая картина. Однако под внешним спокойствием в детальных результатах таится настоящая буря. Пристрастия игр сильно разделились, а у каких как - оставим в качестве задачи для самостоятельного изучения. Главный вывод - для игр (именно как множества, а не для одной конкретной игры) вопрос конфигурации памяти не является каким-то важным. В общем-то, решать его даже менее необходимо, чем вопрос выбора центрального процессора (разумеется, если речь не идет о совсем уж бюджетном секторе, типа Core 2 Duo или вообще Pentium/Celeron). Главным же вопросом, стоящим перед «хардкорным» геймером сегодня, будет: «Потяну на multi-GPU или придется свои желания как-то ограничивать?»

А зачем вообще нужен трехканальный ИКП?

Как мы видим, большой пользы от задействования третьего канала контроллера памяти в Core i7 LGA1366 нет. Канал - есть, использовать - можно, но результаты далеко не всегда улучшаются. Чаще даже, наоборот, ухудшаются. Так зачем компания Intel делала ИКП именно трехканальным? Из желания поиграть мускулами (у конкурента два, а мы все три сделаем)? Возможно, такой соблазн тоже был, но вряд ли - все-таки три канала даются достаточно высокой ценой. Причем в прямо смысле: разводка плат становится очень сложной, а сложно - значит дорого. Процессоры можно делать и недорогими (и использованный нами сегодня Core i7 920 тому яркий пример - его розничная цена как Core 2 Quad Q9650), но сама платформа оказывается дороговатой. Причем без особой пользы - для большинства «типично пользовательских» приложений сейчас легко можно ограничиться двумя модулями по 2 ГБ и не волноваться (особенно если учесть процент до сих пор использующих 32-х разрядные операционные системы, где больший объем ОЗУ просто не будет использоваться). Как было сказано в хорошем анекдоте про верблюжонка и его маму: «А зачем нам эти навороты, если мы все равно живем в зоопарке?»

В том-то и дело, что нынешние Core i7, по сути, в зоопарке и живут. Наилучшим образом под него будут приспособлены «настоящие» настольные модели, рассчитанные под исполнение LGA1156, главным (да и вообще - единственным) отличием которого от LGA1366 является поддержка «всего-навсего» двухканального режима памяти. А LGA1366 - платформа изначально серверная. В серверах нужно много памяти. Ни 4, ни 8 и даже ни 12 ГБ, а действительно много. Там и полсотни гигабайт легко могут оказаться востребованными, а то и недостаточными. Как же можно установить больше памяти в одну систему? Общий объем равен произведению количества модулей на их объем. Стало быть, нужно увеличивать либо количество, либо емкость каждого модуля. Второе - сложно и от производителей процессоров/чипсетов, вообще говоря, не зависит. Более того - освоение индустрией более «плотных» микросхем памяти благотворно сказывается на всех производителях серверных платформ одновременно, так что не может стать конкурентным преимуществом.

Значит, надо увеличивать количество поддерживаемых модулей. А оно равно (в общем случае) количеству контроллеров памяти, умноженных на количество поддерживаемых каждым модулей. Последнее - произведение числа поддерживаемых каналов на число одновременно работающих на каждом канале модулей. Увеличивать последнее - очень сложная задача, поскольку одновременно нужно и скоростные характеристики не ухудшать, как минимум. Эта проблема даже в настольных системах проявляется, где больше двух-трех модулей на канал не используется. Например, может быть так: один модуль - DDR3 1333, два - DDR3 1066, три - DDR3 800. Очень много медленной памяти, конечно, иногда лучше, чем мало быстрой, но идти на такие издержки все равно нежелательно. А иногда и невозможно.

Над проблемой увеличения количества поддерживаемых одним каналом контроллера модулей памяти в Intel работали долго и небезуспешно. Однако оказалось, что конечный результат (FB-DIMM) изначально поставленным требованиям удовлетворяет, но его использование вызывает массу нежелательных побочных эффектов.

Остается только один путь - во-первых, перенести контроллер памяти в процессор, что в многопроцессорной системе автоматически обеспечивает нам поддержку и нескольких контроллеров памяти. Во-вторых, увеличивать количество каналов памяти. И то, и другое было сделано. Результат? В системе на двух Xeon, равно как и в системе на двух Opteron, есть два контроллера памяти. Только в первой оба трехканальные, а во второй - двухканальные, что дает нам шесть и четыре канала памяти, соответственно. При установке двух модулей памяти на канал (очень даже щадящий режим) в первой системе их окажется 12, а во второй - 8. Допустим, каждый модуль имеет емкость 4 ГБ, тогда в первой системе окажется 48 ГБ, а во второй - 32 ГБ. В ряде задач это сразу обеспечит первой системе весомое преимущество. А как в сервере на Оптеронах теми же модулями «добить» память до 48 ГБ? Легко - устанавливаем три модуля на канал и… вся система памяти начинает работать медленнее, поскольку, например, задержки придется сильно увеличить. И получается: при одинаковой скорости работы памяти система «и» имеет в полтора раза больший ее объем, чем система «а», а при равном объеме система «и» работает с памятью быстрее, чем система «а».

Именно поэтому в Xeon трехканальный контроллер памяти нужен. Он и в Opteron нужен, но не удалось в свое время сделать. Точно так же, как сейчас Intel не удалось четыре канала реализовать. Все равно по этому пути идти обоим производителям, поскольку альтернативным (а именно FB-DIMM и количество модулей на канале увеличивать) один из них уже идти пробовал и остался не очень довольным.

А зачем все это в зоопарке, на рабочем столе обычного пользователя? Правильно - незачем. Кому нужно - те многопроцессорную рабочую станцию купят и сведут задачу к предыдущей. Основная масса как-то желанием не горела и по 8 ГБ в компьютеры устанавливать (хотя это-то давно доступно), так что ей нет разницы - можно поставить 12 или как. Тем более что сейчас уже при двух модулях на канал двухканального контроллера памяти можно получить и 16 ГБ, а вопрос - насколько это хуже/лучше, чем 24 ГБ, для нормального пользователя компьютера сродни вопросу, сколько ангелов поместятся на кончике иглы.

Итого

При взгляде на итоговую диаграмму, возникает закономерный вопрос - а зачем мы всем этим занимались? Ведь видно, что к финишу практически все пришли одновременно. Гипотетический одноканальный режим свою относительную бессмысленность показал, двухканальный - как и можно было предположить из тестов в синтетике, оказался самым быстрым. Разброс в 2% между лучшим и худшим случаями на таком представительном количестве приложений - очень хороший результат. Показывает, что, как бы то ни было, но в основном наша текущая методика тестирования продолжает оставаться методикой тестирования процессоров, и на общий итоговый балл прочие характеристики системы влияют весьма слабо.

Но! Успокаиваться на этом рано - как мы видим, в общем зачете получилась идиллия именно из-за того, что разные приложения друг друга уравновешивают, однако ведут себя они совершенно по-разному. Кому-то нужно много памяти, кому-то ее увеличение наоборот - мешает, кому-то не важен объем, но жизненно важны низкие задержки, но DivX, по сути, «презрел» все объективно существующие параметры памяти и отдал предпочтение трехканальному режиму в любом виде. Поэтому, при сравнении систем с разными конфигурациями памяти в рамках одной статьи (или самостоятельно), в конкретных тестах не стоит забывать поинтересоваться - как именно получен тот или иной результат. Впрочем, не так уж долго осталось нам возиться именно с разными конфигурациями - LGA1156, напомним, поддерживает только два канала памяти, так что с этими процессорами все будет просто и логично. Устройства в конструктиве LGA1366 мы продолжим тестировать в конфигурации 3х2, однако иногда будем извлекать из запасников и 2х2 (когда нежелательно будет делать поправки в уме на особенности системы памяти). Можно было бы даже полностью перейти на последние, но нет смысла - в среднем, они, конечно, несколько быстрее, но поддержка трех каналов памяти эксклюзивная особенность LGA1366, так что пусть за нее отдувается. Нам просто достаточно помнить, что трехканальный доступ к памяти на этой платформе производительность совсем не увеличивает, а даже наоборот.



Предыдущая статья: Следующая статья:

© 2015 .
О сайте | Контакты
| Карта сайта