Особенности архитектуры PA-RISK компании Hewlett-Packard

| |

|ХАРАКТЕРИСТИКА СУЩЕСТВУЮЩИХ АРХИТЕКТУР |

| |

|1.1 Основные отличия CISC и RISC архитектур |

|Двумя основными архитектурами набора команд, используемыми компьютерной |

|промышленностью на современном этапе развития вычислительной техники (в |

|соответствии с [2]) являются архитектуры CISC и RISC. Основоположником |

|CISC-архитектуры можно считать компанию IBM с ее базовой архитектурой /360, |

|ядро которой используется с 1964 года и дошло до наших дней, например, в таких |

|современных мейнфреймах как IBM ES/9000.Лидером в разработке микропроцессоров c|

|полным набором команд (CISC - Complete Instruction Set Computer) считается |

|компания Intel со своей серией x86 и Pentium. Эта архитектура является |

|практическим стандартом для рынка микрокомпьютеров. Для CISC-процессоров |

|характерно: сравнительно небольшое число регистров общего назначения; большое |

|количество машинных команд, некоторые из которых нагружены семантически |

|аналогично операторам высокоуровневых языков программирования и выполняются за |

|много тактов; большое количество методов адресации; большое количество форматов|

|команд различной разрядности; преобладание двухадресного формата команд; |

|наличие команд обработки типа регистр-память. |

|Основой архитектуры современных рабочих станций и серверов является архитектура|

|компьютера с сокращенным набором команд (RISC - Reduced Instruction Set |

|Computer). Зачатки этой архитектуры уходят своими корнями к компьютерам |

|CDC6600, разработчики которых (Торнтон, Крэй и др.) осознали важность упрощения|

|набора команд для построения быстрых вычислительных машин. Эту традицию |

|упрощения архитектуры С. Крэй с успехом применил при создании широко известной |

|серии суперкомпьютеров компании Cray Research. Однако окончательно понятие RISC|

|в современном его понимании сформировалось на базе трех исследовательских |

|проектов компьютеров: процессора 801 компании IBM, процессора RISC университета|

|Беркли и процессора MIPS Стенфордского университета. |

|Среди других особенностей RISC-архитектур следует отметить наличие достаточно |

|большого регистрового файла (в типовых RISC-процессорах реализуются 32 или |

|большее число регистров по сравнению с 8 - 16 регистрами в CISC-архитектурах), |

|что позволяет большему объему данных храниться в регистрах на процессорном |

|кристалле большее время и упрощает работу компилятора по распределению |

|регистров под переменные. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Для обработки, как правило, используются трехадресные команды, что помимо |

|упрощения дешифрации дает возможность сохранять большее число переменных в |

|регистрах без их последующей перезагрузки. |

|Развитие архитектуры RISC в значительной степени определялось прогрессом в |

|области создания оптимизирующих компиляторов. Именно современная техника |

|компиляции позволяет эффективно использовать преимущества большего регистрового|

|файла, конвейерной организации и большей скорости выполнения команд. |

|Современные компиляторы используют также преимущества другой оптимизационной |

|техники для повышения производительности, обычно применяемой в процессорах |

|RISC: реализацию задержанных переходов и суперскалярной обработки, позволяющей |

|в один и тот же момент времени выдавать на выполнение несколько команд. |

|Следует отметить, что в последних разработках компании Intel (имеются в виду |

|Pentium и Pentium Pro), а также ее последователей-конкурентов (AMD R5, Cyrix |

|M1, NexGen Nx586 и др.) широко используются идеи, реализованные в |

|RISC-микропроцессорах, так что многие различия между CISC и RISC стираются. |

|Однако сложность архитектуры и системы команд x86 остается и является главным |

|фактором, ограничивающим производительность процессоров на ее основе. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Преимущества и недостатки архитектуры PA-RISC |

|компании Hewlett Packard |

| |

|Основой разработки современных изделий Hewlett-Packard является архитектура |

|PA-RISC. Она была разработана компанией в 1986 году и с тех пор прошла |

|несколько стадий своего развития благодаря успехам интегральной технологии от |

|многокристального до однокристального исполнения. В сентябре 1992 года компания|

|Hewlett-Packard объявила о создании своего суперскалярного процессора PA-7100, |

|который с тех пор стал основой построения семейства рабочих станций HP 9000 |

|Series 700 и семейства бизнес-серверов HP 9000 Series 800. В настоящее время |

|имеются 33-, 50- и 99 МГц реализации кристалла PA-7100. Кроме того выпущены |

|модифицированные, улучшенные по многим параметрам кристаллы PA-7100LC с |

|тактовой частотой 64, 80 и 100 МГц, и PA-7150 с тактовой частотой 125 МГц, а |

|также PA-7200 с тактовой частотой 90 и 100 МГц. Компания активно разрабатывает |

|процессор следующего поколения HP 8000, которые будет работать с тактовой |

|частотой 200 МГц и обеспечивать уровень 360 единиц SPECint92 и 550 единиц |

|SPECfp92. Появление этого кристалла ожидается в 1996 году. Кроме того, |

|Hewlett-Packard в сотрудничестве с Intel планируют создать новый процессор с |

|очень длинным командным словом (VLIW-архитектура), который будет совместим как |

|с семейством Intel x86, так и семейством PA-RISC. Выпуск этого процессора |

|планируется на 1998 год. |

| |

|1.3 Характеристика процессоров на основе архитектуры PA-RISC |

| |

|1.3.1 Характеристика и особенности процессора PA 7100 |

| |

|Особенностью архитектуры PA-RISC является внекристальная реализация кэша, что |

|позволяет реализовать различные объемы кэш-памяти и оптимизировать конструкцию |

|в зависимости от условий применения (рисунок 1.3.1). Хранение команд и данных |

|осуществляется в раздельных кэшах, причем процессор соединяется с ними с |

|помощью высокоскоростных 64-битовых шин. Кэш-память реализуется на |

|высокоскоростных кристаллах статической памяти (SRAM), синхронизация которых |

|осуществляется непосредственно на тактовой частоте процессора. При тактовой |

|частоте 100 МГц каждый кэш имеет полосу пропускания 800 Мбайт/с при выполнении |

|операций считывания и 400 Мбайт/с при выполнении операций записи. |

|Микропроцессор аппаратно поддерживает различный объем кэш-памяти: кэш команд |

|может иметь объем от 4 Кбайт до 1 Мбайт, кэш данных - от 4 Кбайт до 2 Мбайт. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Чтобы снизить коэффициент промахов применяется механизм хеширования адреса. В |

|обоих кэшах для повышения надежности применяются дополнительные контрольные |

|разряды, причем ошибки кэша команд корректируются аппаратными средствами. |

| |

|[pic] |

| |

|рис.1.3.1 Блок-схема процессора PA 7100 |

| |

|Процессор подсоединяется к памяти и подсистеме ввода/вывода посредством |

|синхронной шины. Процессор может работать с тремя разными отношениями |

|внутренней и внешней тактовой частоты в зависимости от частоты внешней шины: |

|1:1, 3:2 и 2:1. Это позволяет использовать в системах разные по скорости |

|микросхемы памяти. |

|Конструктивно на кристалле PA-7100 размещены: целочисленный процессор, |

|процессор для обработки чисел с плавающей точкой, устройство управления кэшем, |

|унифицированный буфер TLB, устройство управления, а также ряд интерфейсных |

|схем. Целочисленный процессор включает АЛУ, устройство сдвига, сумматор команд |

|перехода, схемы проверки кодов условий, схемы обхода, универсальный регистровый|

|файл, регистры |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|управления и регистры адресного конвейера. Устройство управления кэш-памятью |

|содержит регистры, обеспечивающие перезагрузку кэш-памяти при возникновении |

|промахов и контроль когерентного состояния памяти. Это устройство содержит |

|также адресные регистры сегментов, буфер преобразования адреса TLB и аппаратуру|

|хеширования, управляющую перезагрузкой TLB. В состав процессора плавающей точки|

|входят устройство умножения, арифметико-логическое устройство, устройство |

|деления и извлечения квадратного корня, регистровый файл и схемы "закоротки" |

|результата. Интерфейсные устройства включают все необходимые схемы для связи с |

|кэш-памятью команд и данных, а также с шиной данных. Обобщенный буфер TLB |

|содержит 120 строк ассоциативной памяти фиксированного размера и 16 строк |

|переменного размера. |

|Устройство плавающей точки реализует арифметику с одинарной и двойной точностью|

|в стандарте IEEE 754. Его устройство умножения используется также для |

|выполнения операций целочисленного умножения. Устройства деления и вычисления |

|квадратного корня работают с удвоенной частотой процессора. |

|Арифметико-логическое устройство выполняет операции сложения, вычитания и |

|преобразования форматов данных. Регистровый файл состоит из 28 64-битовых |

|регистров, каждый из которых может использоваться как два 32-битовых регистра |

|для выполнения операций с плавающей точкой одинарной точности. Регистровый файл|

|имеет пять портов чтения и три порта записи, которые обеспечивают одновременное|

|выполнение операций умножения, сложения и загрузки/записи. |

|Конвейер проектировался с целью максимального увеличения времени, необходимого |

|для выполнения чтения внешних кристаллов SRAM кэш-памяти данных. Это позволяет |

|максимизировать частоту процессора при заданной скорости SRAM. Все команды |

|загрузки (LOAD) выполняются за один такт и требуют только одного такта полосы |

|пропускания кэш-памяти данных. Поскольку кэши команд и данных размещены на |

|разных шинах, в конвейере отсутствуют какие-либо потери, связанные с |

|конфликтами по обращениям в кэш данных и кэш команд. |

|Процессор может в каждом такте выдавать на выполнение одну целочисленную |

|команду и одну команду плавающей точки. Полоса пропускания кэша команд |

|достаточна для поддержания непрерывной выдачи двух команд в каждом такте. |

|Отсутствуют какие-либо ограничения по выравниванию или порядку следования пары |

|команд, которые выполняются вместе. Кроме того, отсутствуют потери тактов, |

|связанных с переключением с выполнения двух команд на выполнение одной команды.|

| |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Специальное внимание было уделено тому, чтобы выдача двух команд в одном такте |

|не приводила к ограничению тактовой частоты. Чтобы добиться этого, в кэше |

|команд был реализован специально предназначенный для этого заранее декодируемый|

|бит, чтобы отделить команды целочисленного устройства от команд устройства |

|плавающей точки. Этот бит предварительного декодирования команд минимизирует |

|время, необходимое для правильного разделения команд. |

| |

|Потери, связанные с зависимостями по данным и управлению, в этом конвейере |

|минимальны. Команды загрузки выполняются за один такт, за исключением случая, |

|когда последующая команда пользуется регистром-приемником команды LOAD. Как |

|правило компилятор позволяет обойти подобные потери одного такта. Для |

|уменьшения потерь, связанных с командами условного перехода, в процессоре |

|используется алгоритм прогнозирования направления передачи управления. Для |

|оптимизации производительности циклов передачи управления вперед по программе |

|прогнозируются как невыполняемые переходы, а передачи управления назад по |

|программе - как выполняемые переходы. Правильно спрогнозированные условные |

|переходы выполняются за один такт. |

|Количество тактов, необходимое для записи слова или двойного слова командой |

|STORE уменьшено с трех до двух тактов. В более ранних реализациях архитектуры |

|PA-RISC был необходим один дополнительный такт для чтения тега кэша, чтобы |

|гарантировать попадание, а также для того, чтобы объединить старые данные |

|строки кэш-памяти данных с записываемыми данными. PA 7100 использует отдельную |

|шину адресного тега, чтобы совместить по времени чтение тега с записью данных |

|предыдущей команды STORE. Кроме того, наличие отдельных сигналов разрешения |

|записи для каждого слова строки кэш-памяти устраняет необходимость объединения |

|старых данных с новыми, поступающими при выполнении команд записи слова или |

|двойного слова. Этот алгоритм требует, чтобы запись в микросхемы SRAM |

|происходила только после того, когда будет определено, что данная запись |

|сопровождается попаданием в кэш и не вызывает прерывания. Это требует |

|дополнительной ступени конвейера между чтением тега и записью данных. Такая |

|конвейеризация не приводит к дополнительным потерям тактов, поскольку в |

|процессоре реализованы специальные цепи обхода, позволяющие направить |

|отложенные данные команды записи последующим командам загрузки или командам |

|STORE, записывающим только часть слова. Для данного процессора потери конвейера|

|для команд записи слова или двойного слова сведены к нулю, если непосредственно|

|последующая |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|команда не является командой загрузки или записи. В противном случае потери |

|равны одному такту. Потери на запись части слова могут составлять от нуля до |

|двух тактов. Моделирование показывает, что подавляющее большинство команд |

|записи в действительности работают с однословным или двухсловным форматом. |

|Все операции с плавающей точкой, за исключением команд деления и вычисления |

|квадратного корня, полностью конвейеризованы и имеют двухтактную задержку |

|выполнения как в режиме с одинарной, так и с двойной точностью. Процессор может|

|выдавать на выполнение независимые команды с плавающей точкой в каждом такте |

|при отсутствии каких-либо потерь. Последовательные операции с зависимостями по |

|регистрам приводят к потере одного такта. Команды деления и вычисления |

|квадратного корня выполняются за 8 тактов при одиночной и за 15 тактов при |

|двойной точности. Выполнение команд не останавливается из-за команд |

|деления/вычисления квадратного корня до тех пор, пока не потребуется регистр |

|результата или не будет выдаваться следующая команда деления/вычисления |

|квадратного корня. |

|Процессор может выполнять параллельно одну целочисленную команду и одну команду|

|с плавающей точкой. При этом "целочисленными командами" считаются и команды |

|загрузки и записи регистров плавающей точки, а "команды плавающей точки" |

|включают команды FMPYADD и FMPYSUB. Эти последние команды объединяют операцию |

|умножения с операциями сложения или вычитания соответственно, которые |

|выполняются параллельно. Пиковая производительность составляет 200 MFLOPS для |

|последовательности команд FMPYADD, в которых смежные команды независимы по |

|регистрам. |

|Потери для операций плавающей точки, использующих предварительную загрузку |

|операнда командой LOAD, составляют один такт, если команды загрузки и плавающей|

|арифметики являются смежными, и два такта, если они выдаются для выполнения |

|одновременно. Для команды записи, использующей результат операции с плавающей |

|точкой, потери отсутствуют, даже если они выполняются параллельно. |

|Потери, возникающие при промахах в кэше данных, минимизируются посредством |

|применения четырех разных методов: "попадание при промахе" для команд LOAD и |

|STORE, потоковый режим работы с кэшем данных, специальная кодировка команд |

|записи, позволяющая избежать копирования строки, в которой произошел промах, и |

|семафорные операции в кэш-памяти. Первое свойство позволяет во время обработки |

|промаха в кэше данных выполнять любые типы других команд. Для |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|промахов, возникающих при выполнении команды LOAD, обработка последующих команд|

|может продолжаться до тех пор, пока регистр результата команды LOAD не |

|потребуется в качестве регистра операнда для другой команды. Компилятор может |

|использовать это свойство для предварительной выборки в кэш необходимых данных |

|задолго до того момента, когда они действительно потребуются. Для промахов, |

|возникающих при выполнении команды STORE, обработка последующих команд загрузки|

|или операций записи в части одного слова продолжается до тех пор, пока не |

|возникает обращений к строке, в которой произошел промах. Компилятор может |

|использовать это свойство для выполнения команд на фоне записи результатов |

|предыдущих вычислений. Во время задержки, связанной с обработкой промаха, |

|другие команды LOAD и STORE, для которых происходит попадание в кэш данных, |

|могут выполняться как и другие команды целочисленной арифметики и плавающей |

|точки. В течение всего времени обработки промаха команды STORE, другие команды |

|записи в ту же строку кэш-памяти могут происходить без дополнительных потерь |

|времени. Для каждого слова в строке кэш-памяти процессор имеет специальный |

|индикационный бит, предотвращающий копирование из памяти тех слов строки, |

|которые были записаны командами STORE. Эта возможность применяется к |

|целочисленным и плавающим операциям LOAD и STORE. |

|Выполнение команд останавливается, когда регистр-приемник команды LOAD, |

|выполняющейся с промахом, требуется в качестве операнда другой команды. |

|Свойство "потоковости" позволяет продолжить выполнение как только нужное слово |

|или двойное слово возвращается из памяти. Таким образом, выполнение команд |

|может продолжаться как во время задержки, связанной с обработкой промаха, так и|

|во время заполнения соответствующей строки при промахе. |

|При выполнении блочного копирования данных в ряде случаев компилятор заранее |

|знает, что запись должна осуществляться в полную строку кэш-памяти. Для |

|оптимизации обработки таких ситуаций архитектура PA-RISC 1.1 определяет |

|специальную кодировку команд записи ("блочное копирование"), которая |

|показывает, что аппаратуре не нужно осуществлять выборку из памяти строки, при |

|обращении к которой может произойти промах кэш-памяти. В этом случае время |

|обращения к кэшу данных складывается из времени, которое требуется для |

|копирования в память старой строки кэш-памяти по тому же адресу в кэше (если он|

|"грязный") и времени, необходимого для записи нового тега кэша. В процессоре PA|

|7100 такая возможность реализована как для привилегированных, так и для |

|непривилегированных команд. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Последнее улучшение управления кэшем данных связано с реализацией семафорных |

|операций "загрузки с обнулением" непосредственно в кэш-памяти. Если семафорная |

|операция выполняется в кэше, то потери времени при ее выполнении не превышают |

|потерь обычных операций записи. Это не только сокращает конвейерные потери, но |

|и снижает трафик шины памяти. В архитектуре PA-RISC 1.1 предусмотрен также |

|другой тип специального кодирования команд, который устраняет требование |

|синхронизации семафорных операций с устройствами ввода/вывода. |

|Управление кэш-памятью команд позволяет при промахе продолжить выполнение |

|команд сразу же после поступления отсутствующей в кэше команды из памяти. |

|64-битовая магистраль данных, используемая для заполнения блоков кэша команд, |

|соответствует максимальной полосе пропускания внешней шины памяти 400 Мбайт/с |

|при тактовой частоте 100 МГц. |

|В процессоре предусмотрен также ряд мер по минимизации потерь, связанных с |

|преобразованиями виртуальных адресов в физические. |

|Конструкция процессора обеспечивает реализацию двух способов построения |

|многопроцессорных систем. При первом способе каждый процессор подсоединяется к |

|интерфейсному кристаллу, который наблюдает за всеми транзакциями на шине |

|основной памяти. В такой системе все функции по поддержанию когерентного |

|состояния кэш-памяти возложены на интерфейсный кристалл, который посылает |

|процессору соответствующие транзакции. Кэш данных построен на принципах |

|отложенного обратного копирования и для каждого блока кэш-памяти поддерживаются|

|биты состояния "частный" (private), "грязный" (dirty) и "достоверный" (valid), |

|значения которых меняются в соответствии с транзакциями, которые выдает или |

|принимает процессор. |

|Второй способ организации многопроцессорной системы позволяет объединить два |

|процессора и контроллер памяти и ввода-вывода на одной и той же локальной шине |

|памяти. В такой конфигурации не требуется дополнительных интерфейсных |

|кристаллов и она совместима с существующей системой памяти. Когерентность |

|кэш-памяти обеспечивается наблюдением за локальной шиной памяти. Пересылки |

|строк между кэшами выполняются без участия контроллера памяти и ввода-вывода. |

|Такая конфигурация обеспечивает возможность построения очень дешевых |

|высокопроизводительных многопроцессорных систем. |

|Процессор поддерживает ряд операций, необходимых для улучшения |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|графической производительности рабочих станций серии 700: блочные пересылки, |

|Z-буферизацию, интерполяцию цветов и команды пересылки данных с плавающей |

|точкой для обмена с пространством ввода/вывода. |

|Процессор построен на базе технологического процесса КМОП с проектными нормами |

|0.8 микрон, что обеспечивает тактовую частоту 100 МГц. |

| |

|1.3.2 Характеристика и особенности процессора PA 7200 |

| |

|Процессор PA 7200 имеет ряд архитектурных усовершенствований по сравнению с PA |

|7100, главными из которых являются добавление второго целочисленного конвейера,|

|построение внутрикристального вспомогательного кэша данных и реализация нового |

|64-битового интерфейса с шиной памяти. |

|Процессор PA 7200, как и его предшественник, обеспечивает суперскалярный режим |

|работы с одновременной выдачей до двух команд в одном такте. Все команды |

|процессора можно разделить на три группы: целочисленные операции, операции |

|загрузки/записи и операции с плавающей точкой. PA 7200 осуществляет |

|одновременную выдачу двух команд, принадлежащим разным группам, или двух |

|целочисленных команд (благодаря наличию второго целочисленного конвейера с АЛУ |

|и дополнительных портов чтения и записи в регистровом файле). Команды перехода |

|выполняются в целочисленном конвейере, причем эти переходы могут составлять |

|пару для одновременной выдачи на выполнение только с предшествующей командой. |

|Повышение тактовой частоты процессора требует упрощения декодирования команд на|

|этапе выдачи. С этой целью предварительная дешифрация потока команд |

|осуществляется еще на этапе загрузки кэш-памяти. Для каждого двойного слова |

|кэш-память команд включает 6 дополнительных бит, которые содержат информацию о |

|наличии зависимостей по данным и конфликтов ресурсов, что существенно упрощает |

|выдачу команд в суперскалярном режиме. |

|В процессоре PA 7200 реализован эффективный алгоритм предварительной выборки |

|команд, хорошо работающий и на линейных участках программ. |

|Как и в PA 7100 в процессоре реализован интерфейс с внешней кэш-памятью данных,|

|работающей на тактовой частоте процессора с |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|однотактным временем ожидания. Внешняя кэш-память данных построена по принципу |

|прямого отображения. Кроме того, для повышения эффективности на кристалле |

|процессора реализован небольшой вспомогательный кэш емкостью в 64 строки. |

|Формирование, преобразование адреса и обращение к основной и вспомогательной |

|кэш-памяти данных выполняется на двух ступенях конвейера. Максимальная задержка|

|при обнаружении попадания равна одному такту. |

|Вспомогательный внутренний кэш содержит 64 32-байтовые строки. При обращении к |

|кэш-памяти осуществляется проверка 65 тегов: 64-х тегов вспомогательного кэша и|

|одного тега внешнего кэша данных. При обнаружении совпадения данные |

|направляются в требуемое функциональное устройство. |

|При отсутствии необходимой строки в кэш-памяти производится ее загрузка из |

|основной памяти. При этом строка поступает во вспомогательный кэш, что в ряде |

|случаев позволяет сократить количество перезагрузок внешней кэш-памяти, |

|организованной по принципу прямого отображения. Архитектурой нового процессора |

|для команд загрузки/записи предусмотрено кодирование специального признака |

|локального размещения данных ("spatial locality only"). При выполнении команд |

|загрузки, помеченных этим признаком, происходит обычное заполнение строки |

|вспомогательного кэша. Однако последующая запись строки осуществляется |

|непосредственно в основную память минуя внешний кэш данных, что значительно |

|повышает эффективность работы с большими массивами данных, для которых размера |

|строки кэш-памяти с прямым отображением оказывается недостаточно. |

|Расширенный набор команд процессора позволяет реализовать средства |

|автоиндексации для повышения эффективности работы с массивами, а также |

|осуществлять предварительную выборку команд, которые помещаются во |

|вспомогательный внутренний кэш. Этот вспомогательный кэш обеспечивает |

|динамическое расширение степени ассоциативности основной кэш-памяти, |

|построенной на принципе прямого отображения, и является более простым |

|альтернативным решением по сравнению с множественно-ассоциативной организацией.|

| |

|Процессор PA 7200 включает интерфейс новой 64-битовой мультиплексной системной |

|шины Runway, реализующей расщепление транзакций и поддержку протокола |

|когерентности памяти. Этот интерфейс включает буфера транзакций, схемы |

|арбитража и схемы управления соотношениями внешних и внутренних тактовых |

|частот. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|1.3.3 Характеристика суперскалярного процессора PA 8000 |

| |

|Процессор PA-8000 был анонсирован в марте 1995 года на конференции COMPCON 95. |

|Было объявлено, что показатели его производительности будут достигать 8.6 |

|единиц SPECint95 и 15 единиц SPECfp95 для операций целочисленной и вещественной|

|арифметики соответственно. В настоящее время этот очень высокий уровень |

|производительности подтвержден испытаниями рабочих станций и серверов, |

|построенных на базе этого процессора. |

|Процессор PA-8000 вобрал в себя все известные методы ускорения выполнения |

|команд. В его основе лежит концепция "интеллектуального выполнения", которая |

|базируется на принципе внеочередного выполнения команд. Это свойство позволяет |

|PA-8000 достигать пиковой суперскалярной производительности благодаря широкому |

|использованию механизмов автоматического разрешения конфликтов по данным и |

|управлению аппаратными средствами. Эти средства хорошо дополняют другие |

|архитектурные компоненты, заложенные в структуру кристалла: большое число |

|исполнительных функциональных устройств, средства прогнозирования направления |

|переходов и выполнения команд по предположению, оптимизированная организация |

|кэш-памяти и высокопроизводительный шинный интерфейс. |

|Высокая производительность PA-8000 во многом определяется наличием большого |

|набора функциональных устройств, который включает в себя 10 исполнительных |

|устройств: два арифметико-логических устройства (АЛУ) для выполнения |

|целочисленных операций, два устройства для выполнения операций сдвига/слияния |

|данных, два устройства для выполнения умножения/сложения чисел с плавающей |

|точкой, два устройства деления/вычисления квадратного корня и два устройства |

|выполнения операций загрузки/записи. |

|Средства внеочередного выполнения команд процессора PA-8000 обеспечивают |

|аппаратное планирование загрузки конвейеров и лучшее использование |

|функциональных устройств. В каждом такте на выполнение могут выдаваться до |

|четырех команд, которые поступают в 56-строчный буфер переупорядочивания. Этот |

|буфер позволяет поддерживать постоянную занятость функциональных устройств и |

|обеспечивает эффективную минимизацию конфликтов по ресурсам. конфликтов по |

|ресурсам. Кристалл может анализировать все 56 командных строк одновременно и |

|выдавать в каждом такте по 4 готовых для выполнения команды в функциональные |

|устройства. Это позволяет процессору |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|автоматически выявлять параллелизм уровня выполнения команд. |

|Суперскалярный процессор PA-8000 обеспечивает полный набор средств выполнения |

|64-битовых операций, включая адресную арифметику, а также арифметику с |

|фиксированной и плавающей точкой. При этом кристалл полностью сохраняет |

|совместимость с 32-битовыми приложениями. Это первый процессор, в котором |

|реализована 64-битовая архитектура PA-RISC. Он сохраняет полную совместимость с|

|предыдущими и будущими реализациями PA-RISC. |

|Кристалл изготовлен по 0.5-микронной КМОП технологии с напряжением питания 3.3 |

|Вольт и можно рассчитывать на дальнейшее уменьшение размеров элементов в |

|будущем. |

| |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|2. ОСОБЕННОСТИ СЕРВЕРОВ КОМПАНИИ HEWLETT-PACKARD НА БАЗЕ ПРОЦЕССОРОВ С |

|АРХИТЕКТУРОЙ PA- RISC |

| |

|Компания Hewlett-Packard была учреждена в Калифорнии в 1938 году с целью |

|создания электронного тестирующего и измерительного оборудования. В настоящее |

|время компания разрабатывает, производит, осуществляет маркетинг и сервис |

|систем для коммерческих приложений, автоматизации производственных процессов, |

|процессов разработки, тестирования и измерений, а также аналитические и |

|медицинские инструменты и системы, периферийное оборудование, калькуляторы и |

|компоненты для использования в широком ряде отраслей промышленности. Она |

|продает более 4500 изделий, используемых в промышленности, бизнесе, науке, |

|образовании, медицине и инженерии. |

|Основой разработки современных компьютеров Hewlett-Packard является архитектура|

|PA-RISC. Она была разработана компанией в 1986 году, и с тех пор, благодаря |

|успехам интегральной технологии, прошла несколько стадий своего развития от |

|многокристального до однокристального исполнения. Архитектура PA-RISC |

|разрабатывалась с учетом возможности построения многопроцессорных систем, |

|которые реализованы в старших моделях серверов. |

|2.1 Серверы HP9000 класса D |

|В секторе рынка серверов рабочих групп компания HP представлена довольно |

|широкой серией систем HP9000 класса D. Это серия систем с относительно низкой |

|стоимостью, которая конкурирует с серверами, построенными на базе ПК. Эти |

|системы базируются на архитектуре процессоров PA-RISC (75 и 100 МГц PA-7100LC, |

|100 и 120 МГц PA-7200, а также 160 МГц PA-8000) и работают под управлением |

|операционной системы HP-UNIX. |

|Модели D200, D210 и D310 представляют собой (согласно[3]) однопроцессорные |

|системы. Модели D250, D260, D270 и D350 могут оснащаться как одним, так и двумя|

|процессорами. В своих моделях D3XX HP подчеркивает свойства обеспечения высокой|

|готовности: возможность "горячей" замены внутренних дисковых накопителей, |

|возможность организации дискового массива RAID и наличие источника |

|бесперебойного питания. Эти модели обладают также расширенными возможностями по|

|наращиванию оперативной памяти и подсистемы ввода/вывода. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|В моделях D2XX имеется 5 гнезд расширения ввода/вывода и 2 отсека для установки|

|дисковых накопителей с интерфейсом SCSI-2. В моделях D3XX количество гнезд |

|расширения ввода/вывода расширено до 8, в 5 отсеках могут устанавливаться |

|дисковые накопители с интерфейсом Fast/Wide SCSI-2, которые допускают замену |

|без выключения питания системы. |

|Старшие модели серии обеспечивают возможность расширения оперативной ECC-памяти|

|до 1.5 Гбайт, при этом коэффициент расслоения может увеличиваться до 12. |

|Максимальный объем дискового пространства при использовании внешних дисковых |

|массивов может достигать 5.0 Тбайт. |

|2.2 Серверы HP9000 класса K |

|Серверы HP9000 класса K представляют собой системы среднего класса, |

|поддерживающие симметричную мультипроцессорную обработку (до 4 процессоров). |

|Также как и системы класса D они базируются на архитектуре PA-RISC (120 МГц |

|PA-7200 с кэш-памятью команд/данных первого уровня 256/256 Кбайт или 1/1 Мбайт,|

|а также 160 и 180 МГц PA-8000 с кэш-памятью команд/данных первого уровня 1/1 |

|Мбайт, работающей на тактовой частоте процессора). |

|Конструкция серверов класса К обеспечивает высокую пропускную способность |

|систем. Основными компонентами поддержания высокой производительности являются |

|системная шина с пиковой пропускной способностью 960 Мбайт/с, большая |

|оперативная память с контролем и исправлением одиночных ошибок (ECC) емкостью |

|до 4 Гбайт c 32-кратным расслоением, многоканальная подсистема ввода/вывода с |

|пропускной способностью до 288 Мбайт/с, стандартная высокоскоростная шина |

|Fast/Wide Differential SCSI-2, а также дополнительные возможности по |

|подключению высокоскоростных сетей и каналов типа FDDI, ATM и Fibre Channel. |

|В конструкции сервера предусмотрены 4 отсека для установки дисковых |

|накопителей, а с помощью специальных стоек (кабинетов) расширения емкость |

|дисковой памяти системы может быть доведена до 8.3 Тбайт. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|2.3 Симметричные многопроцессорные серверы HP9000 класса Т |

|Самым мощным и расширяемым рядом корпоративных серверов компании HP на базе ОС |

|UNIX является семейство HP9000 класса T. Это следующее поколение серверов, |

|которое было разработано компанией вслед за HP9000 model 870. В начале на рынке|

|появились системы HP9000 T500, допускающие установку до 12 процессоров PA7100, |

|затем HP объявила 14-процессорные системы T520, построенные на базе процессора |

|120 МГц PA7150. В настоящее время объявлены 12-процессорные системы Т600 на |

|базе процессора PA-8000, поставки которых должны начаться в 1997 году. |

|Существующие системы (Т500 и Т520) допускают замену старых процессоров на |

|процессоры PA-8000. |

|Характерной особенностью архитектуры серверов класса Т является большая емкость|

|кэш-памяти команд (1 Мбайт) и данных (1 Мбайт) у каждого процессора системы. |

|Серверы класса T используют 64-битовую шину с расщеплением транзакций, которая |

|поддерживает до 14 процессоров, работающих на частоте 120 МГц. Эффективность |

|этой шины, как и шины Runway, составляет 80%, что обеспечивает в установившемся|

|режиме пропускную способность 768 Мбайт/с при пиковой производительности 960 |

|Мбайт/с. |

|Серверы класса T могут поддерживать до 8 каналов HP-PB (HP Precision Bus), |

|работающих со скоростью 32 Мбайт/с, однако в стойке основной системы |

|поддерживается только один канал HP-PB. Для обеспечения полной конфигурации |

|подсистемы ввода/вывода необходима установка 7 стоек расширения, занимающих |

|достаточно большую площадь. Общая пиковая полоса пропускания подсистемы в/в в |

|полностью сконфигурированной 8-стоечной системе составляет 256 Мбайт/с, что |

|меньше полосы пропускания подсистемы в/в серверов класса К. Однако максимальная|

|емкость дисковой памяти при использовании RAID-массивов достигает 20 Тбайт. |

|Указанная двухярусная шинная структура сервера обеспечивает оптимальный баланс |

|между требованиями процессоров и подсистемы ввода/вывода, гарантируя высокую |

|пропускную способность системы даже при тяжелой рабочей нагрузке. Доступ |

|процессоров к основной памяти осуществляется посредством мощной системной шины |

|процессор-память, поддерживающей когерентное состояние кэш-памятей всей |

|системы. В будущих системах планируется 4-кратное увеличение пропускной |

|способности подсистемы ввода/вывода. |

| |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|2.4 Семейство корпоративных параллельных серверов HP9000 |

|Одним из последних продуктов, выпущенных компанией HP, является семейство |

|параллельных систем, представленных в настоящее время двумя моделями ESP21 и |

|ESP30. Основная концепция, лежащая в основе этих систем достаточно проста. Она |

|заключается в создании комбинированной структуры, в которой объединяются |

|возможности и сильные стороны проверенной временем высокопроизводительной |

|симметричной мультипроцессорной обработки с практически неограниченным |

|потенциалом по росту производительности и масштабируемости, который может быть |

|достигнут посредством параллельной архитектуры. Результатом такого объединения |

|является высокопроизводительная архитектура, обеспечивающая чрезвычайно высокую|

|степень распараллеливания вычислений. |

|В отличие от некоторых других параллельных архитектур, которые используют слабо|

|связанные однопроцессорные узлы, параллельная архитектура серверов ESP21 и |

|ESP30 использует высокопроизводительную SMP-технологию в качестве |

|масштабируемых строительных блоков. Преимущество такого подхода заключается в |

|том, что прикладные системы могут пользоваться вычислительной мощностью и |

|возможностями множества тесно связанных процессоров в инфраструктуре SMP и |

|достаточно эффективно обеспечивать максимально возможную производительность |

|приложений. По мере необходимости дополнительные SMP-модули могут быть |

|добавлены в систему для увеличения степени параллелизма для масштабирования |

|общей производительности системы, ее емкости, пропускной способности в/в, или |

|таких системных ресурсов как основная и дисковая память. |

|Изделия этой серии предназначены главным образом для обеспечения |

|масштабируемости, превышающей обычные возможности SMP-архитектуры, для |

|крупномасштабных систем принятия решений, систем оперативной обработки |

|транзакций, построения хранилищ данных во Всемирной Паутине Internet. Для |

|большинства приложений модели ESP обеспечивают практически линейный рост уровня|

|производительности. Это достигается посредством использования |

|высокопроизводительной шинной архитектуры SMP узлов ESP в сочетании с |

|возможностями установки дополнительных SMP-узлов с помощью разработанного |

|компанией HP коммутатора оптоволоконных каналов (Fiber Channel Enterprise |

|Switch). Управление всеми ресурсами системы осуществляется с единой консоли |

|управления. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|При необходимости обеспечения высокой готовности системы ESP поддерживают |

|специальный слой программных средств MC/ServiceGuard. Эти средства позволяют |

|создать эффективное сочетание свойств высокой производительности, |

|масштабируемости и высокой готовности, и помимо стандартных возможностей RAS |

|(надежности, готовности и удобства обслуживания) обеспечивают замену узлов без |

|останова работы системы. |

|По сути серия EPS предоставляет средства для объединения моделей класса К |

|(EPS21) и Т(EPS30) в единую систему. 16-канальный коммутатор Fiber Channel |

|позволяет объединить до 64 процессоров в модели EPS21 (до 256 процессоров в |

|будущем) и до 224 процессоров в модели EPS30 (до 768 процессоров в будущем). |

|Общая пиковая пропускная способность систем может достигать уровня 15 Гбайт/с. |

| |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Введение |

| |

|На данном этапе научно-технического развития выбор аппаратной платформы и |

|конфигурации системы представляет собой чрезвычайно сложную задачу[1]. Это |

|связано, в частности, с характером прикладных систем, который в значительной |

|степени может определять рабочую нагрузку вычислительного комплекса в целом. |

|Однако часто оказывается просто трудно с достаточной точностью предсказать саму|

|нагрузку, особенно в случае, если система должна обслуживать несколько групп |

|разнородных по своим потребностям пользователей. Следует отметить, что выбор |

|той или иной аппаратной платформы и конфигурации определяется и рядом общих |

|требований, которые предъявляются к характеристикам современных вычислительных |

|систем. К ним относятся: отношение стоимость/производительность, надежность и |

|отказоустойчивость, масштабируемость, совместимость и мобильность программного |

|обеспечения. Основная задача при проектировании всего ряда моделей системы |

|PA-RISC заключалась в создании такой архитектуры, которая была бы одинаковой с |

|точки зрения пользователя для всех моделей системы независимо от цены и |

|производительности каждой из них. Огромные преимущества такого подхода, |

|позволяющего сохранять существующий задел программного обеспечения при переходе|

|на новые модели были быстро оценены как производителями компьютеров, так и |

|пользователями и начиная с этого времени практически все фирмы-поставщики |

|компьютерного оборудования взяли на вооружение эти принципы, поставляя серии |

|совместимых компьютеров. |

| |

| | | | | | |

| | | | | | |

|И|Ли|№ докум.|Подп. |Дат| |

|з|ст| | |а | |

|м| | | | | |

|тр |й | | | | |

|Утв. | | | | | |

| |

|Постановка задачи |

| |

|В ходе выполнения данного курсового проекта необходимо рассмотреть существующие|

|виды архитектур процессоров, охарактеризовать их преимущества и недостатки. |

|Следует детально рассмотреть какую-либо архитектуру (в данном случае это |

|архитектура PA-RISC компании Hewlett Packard), а также рассмотреть области |

|применения процессоров с выбранной архитектурой (характеристика серверов |

|компании Hewlett Packard на основе PA-RISC процессоров). Также необходимо |

|разработать программу-драйвер передачи информации между рабочими станциями в |

|локальной сети. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|РЕФЕРАТ |

| |

|Курсовой проект содержит: стр. , лит.ист. , прилож.1, рис.1 |

| |

|Ключевые слова: |

| |

|АРХИТЕКТУРА, ПРОЦЕССОР, PA-RISC, CISC, КОНВЕЙЕР, СЕРВЕР, КЕШ-ПАМЯТЬ, РЕГИСТР, |

|ИНСТРУКЦИЯ, АРИФМЕТИКО-ЛОГИЧЕСКОЕ УСТРОЙСТВО |

| |

|В данном курсовом проекте рассмотрены преимущества и недостаки основных |

|существующих архитектур процессоров, детально рассмотрена архитектура PA-RISC |

|компании HewlettPackard, приведена характеристика серверов компании Hewlett |

|Packard на основе PA-RISC процессоров. |

| | | | | | |

| | | | | | |

|И|Ли|№ докум.|Подп. |Дат| |

|з|ст| | |а | |

|м| | | | | |

|тр |й | | | | |

|Утв. | | | | | |

| |

|СОДЕРЖАНИЕ |

| |

|Введение……………………………………………………………………… |

| |

|1. Характеристика существующих архитектур ………………………….. |

| |

|Основные отличия CISC и RISC архитектур……………………….. |

|Преимущества и недостатки PA-RISC архитектуры компании |

|HewlettPackard………………………………………………………… |

|Характеристика процессоров на основе архитектуры PA-RISC…... |

|1.3.1 Характеристика и особенности процессоров PA 7100…………. |

|1.3.2 Характеристика и особенности процессоров PA 7200…………. |

|1.3.3 Характеристика суперскалярного процессора РА 8000………… |

|Постановка задачи……………………………………………………. |

| |

|2. Особенности серверов компании HewlettPackard с архитектурой |

|PA-RISC………………………………………………………………………… |

|2.1 Серверы НР9000 класса D…………………………………………… |

|2.2 Серверы НР9000 класса К…………………………………………… |

|2.3 Симметричные многопроцессорные серверы HP9000 класса Т….. |

|2.4 Семейство корпоративных параллельных серверов HP9000……... |

|Заключение………………………………………………………………….. |

|Список использованной литературы………………………………………. |

|Приложение ………………………………………………………………… |

| | | | | | |

| | | | | | |

|И|Ли|№ докум.|Подп. |Дат| |

|з|ст| | |а | |

|м| | | | | |

|тр |й | | | | |

|Утв. | | | | | |

| |

|Заключение |

| |

|В данном курсовом проекте рассмотрены основные архитектектуры процессоров. |

|Детально рассмотрена архитектура PA-RISC компании Hewlett Packard, |

|проанализированы преимущества и недостатки этой архитектуры. Также рассмотрены |

|области применения процессоров с архитектурой PA-RISC (характеристика серверов |

|компании Hewlett Packard на основе PA-RISC процессоров). В приложении приведена|

|программа обеспечивающая передачу информации между рабочими станциями в |

|локальной сети. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |

| |

|Список использованной литературы |

| |

|1.Шнитман В.С., Кузнецов М.И. Аппаратно-программные платформы корпоративных |

|информационных систем : Учебное пособие. – Минск, 1997.- 457с.: ил. |

|2.Громов Ю.Ю.,Татаренко С.И. Современные высокопроизводительные компьютеры: |

|Учебное пособие. – Тамбов,1995.- 169 с. |

|3.Гук М.И. Аппаратные средства IBM PC. Энциклопедия : Учебное пособие. – |

|С.-Петербург, 1999.-816 с.: ил. |

| | | | | | |Лис|

| | | | | |**** 7.0915.01.08 ПЗКП |т |

| | | | | | | |

|И|Ли|№ докум.|Подп. |Дат| | |

|з|ст| | |а | | |

|м| | | | | | |