Interested Article - Advanced Simulation and Computing Program

Программа Advanced Simulation and Computing Program или ASC (до 2005 года — Accelerated Strategic Computing Initiative , или ASCI ) — это инициатива правительства США по созданию суперкомпьютеров , которые бы позволили США следить за состоянием своего ядерного арсенала после объявления в октябре 1992 года моратория на проведение ядерных испытаний , продления моратория в июле 1993 года и добровольного соблюдения с 1996 года условий Договора о всеобъемлющем запрещении ядерных испытаний (договор подписан президентом США, но до сих пор не ратифицирован Сенатом).

В программе принимали участие три Национальные лаборатории США , занимавшиеся разработкой и инспекцией ядерного арсенала страны : Ливерморская национальная лаборатория , Лос-Аламосская национальная лаборатория и Сандийская национальная лаборатория (неядерные компоненты ядерного оружия).

Цели и задачи

Сравнение роста производительности, «обещанное» Законом Мура, с производительностью суперкомпьютеров, которая должна была быть достигнута за 10 лет программы ASCI

Программа берёт своё начало от (англ.) ( , инициированной в 1983 году в рамках Стратегической оборонной инициативы , целью которой было создание к 1993 году компьютерных систем искусственного интеллекта. Эта программа потерпела провал, её финансирование было сокращено, программа получила новое название, а цель программы стала менее амбициозной — создание суперкомпьютеров для обслуживания ядерного арсенала США .

Первоначально программа называлась « Accelerated Strategic Computing Initiative » (ASCI), дословно «Ускоренная стратегическая компьютерная инициатива». « Ускоренной » она была потому, что за 10 лет требовалось создать аппаратное и программное обеспечение, способное полноценно моделировать ядерные и термоядерные взрывы, пользуясь опытом ещё имевшихся инженеров и учёных, способных сравнить старые данные реальных испытаний («legacy data») с данными, выдаваемыми компьютерными моделями, и подтвердить точность симуляций. До этого программы, которые использовались в лабораториях, были довольно простыми. Результаты, которые выдавали эти программы, легко проверялись с помощью ядерных испытаний. Именно поэтому программы моделировали физику процессов взрыва в одно- или двух-мерном пространстве. Упрощения были вызваны также ограниченной мощностью суперкомпьютеров 80-х — начала 90-х годов. Для полноценного моделирования взрыва требовалась трёхмерная модель. По оценке специалистов Ливерморской национальной лаборатории для достижения требуемой точности результатов необходимо было построить суперкомпьютеры с вычислительной мощностью свыше 100 Тфлопс (то есть 100 триллионов операций с плавающей точкой в секунду ). Это означало скачок в производительности в 7000 раз, так как самый мощный компьютер, имевшийся в распоряжении Ливерморской лаборатории на тот день, имел производительность 13.7 Гфлопс (13.7 миллиардов операций с плавающей точкой в секунду). Для выполнения целей программы ASCI за 10 лет требовалось в несколько тысяч раз обогнать Закон Мура , создать технологии высокоскоростных вычислений, которые ещё не существовали .

Достижение 100 Тфлопсного рубежа планировалось осуществить в несколько этапов:

первый этап: к концу 1996 года — создать машину мощностью 1 Тфлопс
второй этап: в конце 1999 года — все лаборатории должны иметь машины мощностью 3 Тфлопс
третий этап: к конце 2000 года — получить 10 ТФлопс
четвёртый этап: в 2002 году — получить 30 ТФлопс
пятый этап: в середине 2003 — 60 Тфлопс
в 2005 году — суперкомпьютер с вычислительной мощностью 100 Тфлопс

На каждом этапе мощность нового суперкомпьютера по сравнению с предыдущим должна была увеличиваться примерно в 2.5 раза.

Ход программы

В январе 1995 года на собрании начальников вычислительных отделов трёх Лабораторий было принято решение, что все компьютеры программы ASCI будут использовать массово-параллельную архитуктуру с распределённой памятью с минимумом специализированных компонентов. Выбор массово-параллельной архитектуры на базе общедоступных коммерческих процессоров был очень необычными и рискованным для того времени. Несмотря на то, что Лаборатории экспериментировали с этой архитектурой уже давно — более 10 лет, наиболее перспективным направлением считались многопроцессорные архитектуры на базе специализированных векторных процессоров с разделяемой памятью, направление в котором двигались ведущие производители суперкомпьютеров: NEC , Fujitsu , Hitachi , Cray .

На том же собрании было решено, что первый компьютер мощностью 1 Тфлопс будет установлен в Сандийских лабораториях в Альбукерке, и все Лаборатории будут пользоваться им совместно, пока не подоспеют их экземпляры. Выбор Сандийских лабораторий тоже был необычным, так как Сандийские лаборатории занимались неядерными компонентами ядерного оружия и следовательно в меньшей степени страдали от введения полного запрета на проведение ядерных испытаний .

В январе 1995 года постройка компьютера с вычислительной мощностью 1 Тфлопс (на тесте Linpack) выглядела как фантастика. Ещё большей фантастикой выглядело требование построить такой компьютер менее чем за два года. Самыми мощными суперкомпьютерами по рейтингу MP-Linpack на тот момент были компьютер Numerical Wind Tunnel (максимальная 170 Гфлопс — пиковая 235,79 Гфлопс) и система Intel Paragon, установленная в Сандийских лабораториях (3744 процессора в 1993 году: максимальная 143 Гфлопс — пиковая 184 Гфлопс; 6768 процессоров в 1994 году: 281 Гфлопс), то есть менее 1/5 требуемой мощности. Большинство экспертов сходилось во мнении, что «терафлопсный барьер» будет преодолён только к концу XX столетия, а программа ASCI требовала сделать это за четыре года до этого срока — к концу 1996 года .

Каждая Лаборатория до этого делала закупки компьютеров сама. Теперь компьютеры по программе ASCI надо было закупать основываясь на требовании всех трёх лабораторий. Закупку первого компьютера надо было сделать в 1995 году, но официальный бюджет программы ASCI начинался только с 1996 года и должен был быть принят лишь в ноябре 1995 года. Для первого суперкомпьютера «ASCI Red» было принято решение использовать деньги из фонда «Technology Transfer», который был выделен Лабораториям на «конверсию» после окончания «холодной войны» .

Лабораториям было поручено разработать технические задания, по которым компании-подрядчики будут выдвигать свои предложения. На собрании руководителей вычислительных отделов трёх Лабораторий разгорелась дискуссия, какой из вариантов параллельной архитектуры лучше использовать. Специалист Сандийской лаборатории придерживался варианта с массово-параллельной ( MPP ) системы с распределённой памятью, а представители Ливерморской и Лос-Аламосской лаборатории считали наиболее приемлемым вариант кластеров многопроцессорных узлов ( SMP ) с общей памятью. Второй вариант выглядел предпочтительным ещё и потому, что компании-подрядчики охотнее бы на него согласились: технология многопроцессорных машин легко конвертировалась в рыночный продукт для массового производства, следовательно, потенциальной компании-подрядчику не пришлось бы тратить время и силы на разработку и освоение технологии, для которой существует только один покупатель — Правительство США. Оба варианта были описаны на «белой доске»: вариант Сандийской лаборатории — красным фломастером, вариант Ливерморской и Лос-Аламосской лабораторий — синим. Выбор осложнялся тем, что в 1995 году ещё неизвестно было, каким путём пойдут технологии процессоров, памяти и сетевых соединений, и потому ставка на одно архитектурное решение выглядела очень рискованной. Решили опробовать оба варианта, несмотря на жёсткие бюджетные ограничения. Вариант Сандийской лаборатории (описанный красным фломастером) был реализован первым в ASCI Red («красный») как суперкомпьютер первого этапа , а вариант Ливерморской и Лос-Аламосской лабораторий (описанный синим фломастером) годом позже — в ASCI Blue («синий») как суперкомпьютер второго этапа , причём в двух экземплярах: ASCI Blue Pacific (для Ливерморской лаборатории) и ASCI Blue Mountain (для Лос-Аламосской лаборатории) . Контракт на постройку ASCI Blue Pacific был отдан IBM, а контракт на ASCI Blue Mountain — компании Silicon Graphics .

После установки систем ASCI Blue и апгрейда ASCI Red к ноябрю 1999 года суперкомпьютеры трёх лабораторий заняли первые три строчки списка TOP500 : ASCI Red с производительностью 2,3 Тфлопс, ASCI Blue Pacific — 2,1 Тфлопс и ASCI Blue Mountain — 1,6 Тфлопс. Всего за четыре года программа ASCI увеличила мощность суперкомпьютеров в 90 раз .

Программное обеспечение

Выбор массово-параллельной архитектуры для будущих машин означал также, что имеющиеся программы компьютерных симуляций надо было переписывать и оптимизировать, чтобы использовать эту архитектуру на полную мощь.

Для создание нового программного обеспечения Лаборатории отказались от прежнего метода «hero code», когда каждую программу создавали и «вели» один или пара инженеров. Например, программу DYNA3D , использовавшуюся в Ливерморской лаборатории для симуляции воздействия ударной волны взрыва на окружающие предметы, на протяжении 12 лет вёл один сотрудник лаборатории — Джон О. Холквист. В Лабораториях были сформированы команды программистов из 20-30 человек, которые на протяжении нескольких лет создавали программные пакеты для будущих компьютеров в тесном сотрудничестве с физиками, проверявшими качество результатов симуляций .

Итоги программы

Первая полноценная 3-мерная симуляция взрыва первой ступени термоядерной бомбы («ядерного запала») была осуществлена в декабре 1999 года в Ливерморской лаборатории на суперкомпьютере ASCI Blue Pacific . Симуляция заняла 492 часа на 1000 процессорах, использовала 640,000 Мбайт памяти и сгенерировала 6 терабайт данных в виде 50.000 графических файлов . 3-мерная симуляция второй ступени взрыва («горение термоядерного горючего») была осуществлена в апреле 2000 года в Лос-Аламосской лаборатории. В сентябре 2002 года в Ливерморской лаборатории была осуществлена полная объединённая симуляция обеих ступеней термоядерного взрыва .

Программа достигла поставленных целей в 2005 году с вводом в строй суперкомпьютера ASC Purple . После этого программа получила новое нынешнее название «Advanced Simulation and Computing Program» (ASC).

Суперкомпьютеры

Компьютеры устанавливались в трёх национальных лабораториях , которые занимались вопросами ядерного оружия: Ливерморская национальная лаборатория , Лос-Аламосская национальная лаборатория , Сандийские национальные лаборатории . Некоторые суперкомпьютеры, созданные в рамках этой программы, вошли в список TOP500 : ASCI Red , ASCI White , Blue Gene/L , Sequoia .

Год	Название	Место установки	Характеристики системы
1997	ASCI Red	Сандийские национальные лаборатории	массово-параллельная компьютерная система на базе процессоров Intel Pentium Pro. Первый в истории суперкомпьютер, достигший производительности свыше 1 триллион флопс (1 Тфлопс ). После обновления в 1999 году достигнута производительность 3.2 Тфлопс . Списан 29 июня 2006 года .
1998	ASCI Blue Mountain	Лос-Аламосская национальная лаборатория	система от компании Silicon Graphics / Cray Research на базе кластера многопроцессорных серверов с процессорами MIPS R10000 . Достигнута производительность 3.1 Тфлопс . Списан 8 ноября 2004 года.
1999	ASCI Blue Pacific	Ливерморская национальная лаборатория	компьютерный кластер на многопроцессорных серверах IBM RS/6000 SP . Достигнута производительность 3.8 Тфлопс .
2000	ASCI White	Ливерморская национальная лаборатория	компьютерный кластер на многопроцессорных серверах IBM RS/6000 SP . Достигнута производительность 12 Тфлопс . Списан 27 июля 2006 года.
2001		Сандийские национальные лаборатории	внутренняя разработка, Linux-кластер на базе процессоров DEC Alpha EV6. Достигнута производительность 1.3 Тфлопс .
2002	ASCI Q	Лос-Аламосская национальная лаборатория	компьютерный кластер AlphaServer SC45 на серверах DEC/Compaq/HP AlphaServer ES45 . Достигнута производительность 20 Тфлопс .
2003		Ливерморская национальная лаборатория
2003		Лос-Аламосская национальная лаборатория
2005	ASC Red Storm	Сандийские национальные лаборатории	массово-параллельная машина от компании Cray Inc. на базе процессоров AMD Opteron и архитектуры . Замена проработавшему в лаборатории почти 10 лет и устаревшему ASCI Red . Списан в мае 2012 года .
2005	ASC Purple	Ливерморская национальная лаборатория	массово-параллельная система на базе процессоров IBM POWER5 . Достигнута производительность в 100 Тфлопс — цель программы ASCI. Списан 9 ноября 2010 года
2005	Blue Gene/L	Ливерморская национальная лаборатория	массово-параллельная система на базе архитектуры IBM Blue Gene/L с процессорами PowerPC 440 . Достигнута производительность 360 Тфлопс, что намного превышает цели программы ASCI
2012	Sequoia	Ливерморская национальная лаборатория	массово-параллельная система на базе архитектуры IBM Blue Gene/Q с процессорами PowerPC A2