Журнал LinuxFormat - перейти на главную

LXF164:Скры­тая опо­ра CERN

Материал из Linuxformat
(Различия между версиями)
Перейти к: навигация, поиск
(БАК – это мно­го дан­ных)
(БАК – это мно­го дан­ных)
Строка 69: Строка 69:
  
 
По сло­вам Ка­ла­фиу­ры, но­ут­бу­ки Apple все ча­ще встре­ча­ют­ся сре­ди уча­стников кон­фе­рен­ций по фи­зи­ке вы­со­ких энер­гий, но в них очень ред­ко мож­но встре­тить кноп­ку Пуск [Start]. «В сво­ей ду­ше ар­хи­тек­то­ра, – при­зна­ет он, – я не очень до­во­лен тем, что мы ра­бо­таем ис­клю­чи­тель­но на Linux, по­то­му что про­ще ре­шать неко­то­рые про­бле­мы, не бу­ду­чи за­ви­си­мым от плат­фор­мы. Но ис­поль­зование толь­ко Linux по­зво­ля­ет нам обой­ти ряд ост­рых уг­лов. На­при­мер, мы об­су­ж­да­ли non-POSIX функ­цию Linux под на­званием Splice – это ка­на­л, где вы не ко­пи­руе­те дан­ные, что по­вы­ша­ет эф­фек­тив­ность на­шей об­ра­бот­ки дан­ных».
 
По сло­вам Ка­ла­фиу­ры, но­ут­бу­ки Apple все ча­ще встре­ча­ют­ся сре­ди уча­стников кон­фе­рен­ций по фи­зи­ке вы­со­ких энер­гий, но в них очень ред­ко мож­но встре­тить кноп­ку Пуск [Start]. «В сво­ей ду­ше ар­хи­тек­то­ра, – при­зна­ет он, – я не очень до­во­лен тем, что мы ра­бо­таем ис­клю­чи­тель­но на Linux, по­то­му что про­ще ре­шать неко­то­рые про­бле­мы, не бу­ду­чи за­ви­си­мым от плат­фор­мы. Но ис­поль­зование толь­ко Linux по­зво­ля­ет нам обой­ти ряд ост­рых уг­лов. На­при­мер, мы об­су­ж­да­ли non-POSIX функ­цию Linux под на­званием Splice – это ка­на­л, где вы не ко­пи­руе­те дан­ные, что по­вы­ша­ет эф­фек­тив­ность на­шей об­ра­бот­ки дан­ных».
 +
 +
===Со­трудниче­­ст­во в об­лас­ти от­кры­то­го ко­да===
 +
 +
''Око­ло 10 000 фи­зи­ков по все­му ми­ру ра­бо­та­ют над про­ек­та­ми, свя­зан­ны­ми с CERN; две тре­ти из них бро­ше­ны на круп­ные экс­пе­ри­мен­ты, ATLAS и CMS.''
 +
 +
Ана­лиз дан­ных, про­из­ве­ден­ных БАК – это дер­зание на мно­гих уров­нях. Пре­достав­ление уче­ным ре­зуль­та­тов подразумевает мас­со­вую пе­ре­да­чу дан­ных. За­тем вста­ет во­прос об­ра­бот­ки этих дан­ных. На­деж­ность – то­же важ­ный ас­пект: ес­ли на сер­ве­ре где-то по­сре­ди про­цес­са про­изой­дет сбой по­сле двух­су­точ­ной ра­бо­ты, его пе­ре­за­пуск бу­дет сто­ит все­го ранее за­тра­чен­но­го дра­го­цен­но­го вре­мени и уси­лий.
 +
 +
Сфе­ра об­ра­бот­ки и хранения дан­ных в CERN обес­пе­чи­ва­ет­ся мощ­ным про­ек­том рас­пре­де­лен­ных вы­чис­лений внут­ри од­ной из са­мых мощ­ных вы­чис­ли­тель­ных се­тей в ми­ре, с са­мым ши­ро­ким ох­ва­том. Точ­ная тер­ми­но­ло­гия и реа­ли­за­ция WLCG раз­ная в 36 стра­нах и 156 ор­ганиза­ци­ях, принимаю­щих уча­стие в про­ек­те, но по сути это – мно­го­уровневая сеть для досту­па и ре­сур­сов. В цен­тре этой се­ти рас­по­ла­га­ет­ся CERN, или Tier 0 (T0), рас­по­ла­гаю­щий свыше 28 000 ло­ги­че­­ских CPU для обес­пе­чения рас­пре­де­лен­ных вы­чис­лений. T0 – это ме­сто, где генери­ру­ют­ся необ­ра­бо­тан­ные экс­пе­ри­мен­таль­ные дан­ные. С T0 со­единены – ча­ще все­го 10-Gbps во­лок­ном – цен­тры Tier 1 (T1), ко­то­рые обыч­но рас­по­ла­га­ют­ся в круп­ных на­цио­наль­ных ла­бо­ра­то­ри­ях фи­зи­ки вы­со­ких энер­гий и вы­сту­па­ют в ро­ли локаль­ных уз­лов. В боль­шин­ст­ве слу­ча­ев все T1 от­ра­жа­ют одни и те же дан­ные, про­из­ве­ден­ные в CERN.
 +
 +
Ни­же цен­тров T1 рас­по­ла­га­ют­ся цен­тры об­ра­бот­ки дан­ных Tier 2 (T2). Как пра­ви­ло, они рас­по­ло­же­ны в круп­ных универ­си­те­тах, где име­ют­ся необ­хо­ди­мые ре­сур­сы, что­бы обес­пе­чить сво­бод­ное ме­сто, стой­ки и как минимум од­но­го со­трудника для ра­бо­ты с ними. Обыч­но со­единение ме­ж­ду цен­тра­ми T1 и T2 осу­ще­ст­в­ля­ет­ся че­рез на­цио­наль­ную ака­де­ми­че­скую сеть (в Ве­ли­ко­бри­тании это JANET), и по­это­му они име­ют вы­со­кую ско­рость, но не спе­ци­аль­но вы­де­лен­ный тра­фик. Локаль­но хра­нят­ся не все ис­сле­до­ва­тель­ские дан­ные – ско­рее, под­на­бо­ры дан­ных, пред­став­ляю­щие ин­те­рес для оп­ре­де­лен­ной ор­ганиза­ции, бу­дут на­хо­дит­ся на по­сто­ян­ном хранении, а осталь­ные дан­ные бу­дут по ме­ре надо­бно­сти брать­ся в T1.
 +
 +
Уч­ре­ж­дения Tier 3 (T3) – это, как пра­ви­ло, менее мас­штаб­ные универ­си­те­ты и ис­сле­до­ва­тель­ские цен­тры, ко­то­рым не тре­бу­ют­ся от­дель­но вы­де­лен­ные для ра­бо­ты ме­ст­ные ре­сур­сы, но ко­то­рые, со­глас­но тре­бо­ваниям, ска­чи­ва­ют дан­ные из се­ти T2 и обес­пе­чи­ва­ют их об­ра­бот­ку в се­ти рас­пре­де­лен­ных вы­чис­лений.
 +
 +
Су­ще­ст­ву­ет несколь­ко ин­фор­ма­ци­он­ных он­лайн-панелей, ку­да ка­ж­дый мо­жет зай­ти и уви­деть со­стояние се­ти (са­мые ин­фор­ма­тив­ные – http://dashb-wlcg-transfers.cern.ch/ui/, https://netstat.cern.ch/monitoring/network-statistics/visual/?p=ge и http://wlcg.web.cern.ch/. В на­стоя­щий мо­мент име­ет­ся око­ло 90 000 фи­зи­че­­ских CPU на 345 893 ло­ги­че­­ских ядрах, со­единен­ных с WLCG. Об­щая ем­кость хранения со­став­ля­ет 300 ПБ. В Ве­ли­ко­бри­тании на­цио­наль­ный про­ект рас­пре­де­лен­ных вы­чис­лений WLCG из­вес­тен как GridPP, и управ­ля­ет им из Универ­си­те­та Окс­фор­да Пит Гронбаx [Pete Gronbach]. Со­глас­но кар­те се­ти – www.gridpp.ac.uk – с GridPP сое­динено бо­лее 37 000 ло­ги­че­­ских ядер CPU, и все это ра­бо­та­ет как еди­ный ре­сурс для уче­ных, занимаю­щих­ся ана­ли­ти­кой на осно­ве дан­ных CERN.
 +
 +
«Мы по­сто­ян­но про­во­дим монито­ринг сис­те­мы, убе­ждаясь, что на­ши сер­ви­сы ра­бо­та­ют нор­маль­но, – объ­яс­ня­ет Гронбаx. – Ес­ли вы по­тер­пе­ли неуда­чу в ка­ком-ли­бо тес­те, это ото­бра­жа­ет­ся на кон­троль­ной панели, и от­вет­ст­вен­ные за монито­ринг на­блю­да­ют за таки­ми ве­ща­ми и при­сваи­ва­ют та­ким цен­трам та­лон неис­прав­но­сти. Есть про­то­кол, со­глас­но ко­то­ро­му центр, что­бы быть ча­стью се­ти, обя­зан обеспечивать оп­ре­де­лен­ный уровень услу­г, и неис­прав­ность долж­на быть уст­ранена за оговорен­ное вре­мя. Все де­ла­ет­ся на очень про­фес­сио­наль­ном уровне – воз­мож­но, вы не жда­ли та­ко­го от универ­си­те­та. Но это не та вещь, с ко­то­рой мы мо­жем шу­тить».
 +
 +
Одно из тре­бо­ваний для цен­тра T2 –на­ли­чие ра­ботника с пол­ной за­ня­то­стью, чья обя­зан­ность – под­дер­жи­вать ре­сур­сы се­ти, и еженедель­но про­во­дят­ся ви­део- или ау­дио­кон­фе­рен­ции ме­ж­ду сисад­мина­ми WLCG, что­бы обес­пе­чить кор­рект­ную ра­бо­ту всей се­ти и свое­вре­мен­ное об­нов­ление ее ре­сур­сов.
 +
 +
Крайне важ­но, что Linux по­зво­ля­ет цен­трам HEP снизить рас­хо­ды, по­сколь­ку мож­но ис­поль­зо­вать бо­лее или менее об­щие ком­понен­ты во всей се­ти об­ра­бот­ки и хранения дан­ных. CERN – ог­ром­ное об­ще­ст­вен­ное вло­жение, бо­лее мил­ли­ар­да ев­ро еже­год­но, и он дол­жен уметь счи­тать день­ги. Это так­же оз­на­ча­ет, что CERN мо­жет под­дер­жи­вать ПО с от­кры­тым ко­дом, типа Disk Pool Manager (DPM), применя­емое для под­держ­ки кла­сте­ров хранения. Как и сле­ду­ет ожи­дать от ор­ганиза­ции, по­да­ри­в­шей челове­че­­ст­ву Все­мир­ную пау­ти­ну, она от­лич­но осоз­на­ет все пре­иму­ще­ст­ва со­вме­ст­ной раз­ра­бот­ки.
 +
{{Врезка|right|Заголовок= Генера­тор уско­ри­те­ля|Ширина=40%|Содержание=
 +
Во­прос о том, сколь­ко на са­мом де­ле дан­ных генери­ру­ет­ся БАК, мо­жет от­час­ти вве­сти в за­блу­ж­дение, и на него труд­но дать точ­ный от­вет. В той же бес­хит­ро­ст­ной манере, что и час­ти­цы, за ко­то­ры­ми ве­дет­ся на­блю­дение, боль­шая их часть ис­че­за­ет в счи­тан­ные се­кун­ды, когда про­ис­хо­дит со­бы­тие.
 +
 +
В ко­ман­де ATLAS од­ной из глав­ных ро­лей д-ра Саль­ва­то­ре яв­ля­ет­ся уча­стие в груп­пе, ра­бо­таю­щей над «триг­гер­ной» про­грам­мой для экс­пе­ри­мен­та.
 +
 +
«Экс­пе­ри­мент со­сто­ит их двух пуч­ков про­то­нов, ко­то­рые стал­ки­ва­ют­ся ка­ж­дые 25 на­но­се­кунд, и из это­го взаи­мо­дей­ст­вия что-то долж­но по­лу­чить­ся, – го­во­рит Саль­ва­то­ре. – И на­до ре­шить, пред­став­ля­ет это что-то ин­те­рес или нет. Все, что у нас есть – это 40-МГц взаи­мо­дей­ст­вия, но у нас нет воз­мож­но­сти хранить 40 МГц дан­ных – мы со­хра­ня­ем по­ряд­ка 400 Гц. Час­то­та вы­бор­ки не пе­ре­во­дит­ся непо­сред­ст­вен­но в бай­ты, на прин­цип за­клю­ча­ет­ся в том, что из­на­чаль­ный на­бор дан­ных мо­жет умень­шить­ся по объ­е­му в ты­ся­чу раз».
 +
 +
«Есть три уров­ня про­грамм, – про­дол­жа­ет Саль­ва­то­ре, – и пер­вый дол­жен ра­бо­тать в несколь­ко пер­вых мик­ро­се­кунд и вплоть до третье­го уров­ня, ко­то­рый ре­шает, пред­став­ля­ет все со­бы­тие ин­те­рес или нет. За­да­ча “Триг­ге­ра” – бы­ст­ро про­вес­ти при­бли­зи­тель­ный ана­лиз дан­ных и убе­дить­ся, что со­хра­няе­мые дан­ные пред­став­ля­ют ин­те­рес, а не яв­ля­ют­ся про­сто еще одним столк­но­вением. То, что не вы­би­ра­ет­ся из 40 MГц, ока­зы­ва­ет­ся по­те­рян­ным. Пе­ред на­ча­лом экс­пе­ри­мен­та мы про­во­ди­ли дли­тель­ное мо­де­ли­ро­вание по ме­то­ду Мон­те-Кар­ло, что­бы по­смот­реть, что мо­жет слу­чить­ся во вре­мя со­бы­тия, и иметь воз­мож­ность на­стро­ить триг­гер и из­влечь из дан­ных все по мак­си­му­му». }}
 +
«GridPP су­ще­ст­ву­ет бо­лее 10 лет, – го­во­рит Гронбаx, – но мно­гие па­кет­ные сис­те­мы оста­лись те­ми же: мы ис­поль­зу­ем TORQUE и MAUI, на базе PBS. Один-два цен­тра ис­поль­зу­ют Grid Engine, но для него под­держ­ка не рас­про­странена. Та­кие ве­щи прак­ти­че­­ски неиз­мен­ны дол­гие го­ды. Дру­гие час­ти ПО, та­кие, как Computing Element (это эле­мент, си­дя­щий ме­ж­ду вхо­дя­щи­ми за­да­ча­ми поль­зо­ва­те­ля и их от­прав­кой в па­кет­ную сис­те­му об­ра­бот­ки), уже про­шли че­рез мно­же­ст­во по­ко­лений, и мы об­нов­ля­ем их при­мерно раз в пол­го­да».
 +
 +
По сло­вам Ка­ла­фиу­ры, мно­го­ядер­ная об­ра­бот­ка дан­ных ста­ла са­мым зна­чи­мым луч­шением се­ти рас­пре­де­лен­ных вы­чис­лений.
 +
 +
«Бла­го­да­ря мно­го­ядер­ной об­ра­бот­ке, – го­во­рит он, – мы смог­ли ис­поль­зо­вать спе­ци­фи­че­скую хит­рость Linux – от­вет­вить, ско­пи­ро­вать и за­пи­сать – для за­пуска вось­ми или 16 ко­пий од­но­го и то­го же при­ло­жения».
 +
 +
Сейчас основ­ное об­нов­ление, про­ис­хо­дя­щее в GridPP – уста­нов­ка Scientific Linux 6 (SL6) и ­свежей вер­сии Lustre для хранения фай­ло­вых сис­тем. SL со­вме­ст­но под­дер­жи­ва­ет­ся CERN и аме­ри­кан­ской ла­бо­ра­то­ри­ей Fermilab. На мо­мент пи­сания нашей ста­тьи SL6 ра­бо­та­ет на 99 365 ком­пь­ю­те­рах – это ниже нор­мы, видимо, из-за летних каникул в боль­шин­ст­ве стран се­вер­но­го по­лу­ша­рия. https://www.scientificlinux.org/about/stats/2012/arch.html
 +
 +
SL6 – от­ветв­ление Red Hat Enterprise Linux, вы­бран­ное за его неве­ро­ят­ную ста­биль­ность. Не все ис­сле­до­ва­те­ли применяют SL, и все ин­ст­ру­мен­ты, жизнен­но важ­ные для ра­бо­ты CERN, со­вмес­ти­мы с дру­ги­ми ди­ст­ри­бу­ти­ва­ми – по-прежнему по­пу­ля­рен Ubuntu. Но на всех сер­ве­рах, со­единен­ных с WLCG, вер­сия SL5 или вы­ше. «Что по­ра­до­ва­ло за по­следние 10 лет – это ав­то­ма­ти­че­­ская уста­нов­ка и ад­минист­ри­ро­вание этих сис­тем, – про­дол­жа­ет Грон­бах. – Мы мо­жем уста­нав­ли­вать сис­те­мы, ис­поль­зуя Pixiboot, Kickstart, CF Engine или Puppet для бы­ст­рой или уда­лен­ной пе­реуста­нов­ки уз­ла, по­то­му что ком­пь­ю­тер­ные цен­тры час­то рас­по­ла­га­ют­ся вне универ­си­те­та».
 +
 +
Унификация обо­ру­до­вания и от­ла­жен­ное FOSS так­же об­лег­ча­ет мно­гим цен­трам вы­ход он­лайн и воз­мож­ность пред­ло­жить свои ре­сур­сы се­ти. В июне Сас­сек­с стал цен­тром T2. Универ­си­тет при­сое­динил­ся к про­ек­ту ATLAS в 2009 го­ду, когда д-р Саль­ва­то­ре и д-р Анто­нел­ла Де Сан­то [Antonella De Santo] вошли в про­ект от Универ­си­те­та Ро­ял Хол­лоу­эй [Royal Holloway], еще од­но­го цен­тра T2, соз­дав груп­пу ATLAS. Бла­го­да­ря их ра­бо­те Сас­секс по­лу­чил фи­нан­си­ро­вание, так что д-р Саль­ва­то­ре, д-р Де Сан­то и ка­фед­ра ИТ смогли соз­дать центр об­ра­бот­ки дан­ных на 12 сто­ек, со 100 CPU и 150 TБ хранимых дан­ных, в зале с ес­те­ст­вен­ным ох­ла­ж­дением, за­тра­тив 80 000 фунтов.

Версия 04:42, 27 октября 2018


Скры­тая опо­ра CERN

Адам Окс­форд вы­яс­ня­ет, как Linux по­мо­га­ет охо­тить­ся за бо­зо­ном Хигг­са.

Обыч­ный день док­то­ра Фаб­ри­цио Саль­ва­то­ре [Fabrizio Salvatore] скла­ды­ва­ет­ся при­мер­но та­ким об­ра­зом: ко­фе, ко­рот­кий бри­финг с дву­мя кан­ди­да­та­ми на­ук, ра­бо­таю­щи­ми на его ка­фед­ре в универ­си­те­те Сас­сек­са [University of Sussex], в зе­ле­ном кам­пусе Брай­тона. По­сле это­го – немно­го бо­лее про­дол­житель­ная встре­ча с па­рой ас­пи­ран­тов, занимаю­щих­ся ис­сле­до­вания­ми, а по­том – обыч­ные пре­по­да­ва­тель­ские де­ла и обя­зан­но­сти. Весь­ма ти­пич­ный ака­де­ми­че­­ский день.

Ес­ли же д-р Саль­ва­то­ре улучит вре­мя на соб­ст­вен­но­е ис­сле­до­вание, он начнет с то­го, что за­гру­зит про­грам­му под на­званием ROOT в свой но­ут­бук с Ubuntu. ROOT – из­люб­лен­ная про­грамм­ная сре­да для фи­зи­ки вы­со­ких энер­гий (HEP) и ана­ли­за час­тиц. Раз в неде­лю он про­во­дит кон­фе­рен­цию по те­ле­фо­ну со свои­ми со­трудника­ми по ис­сле­до­ванию по все­му ми­ру.

В один дей­ст­ви­тель­но пре­крас­ный день – воз­мож­но, это случится один-един­ст­вен­ный раз за всю его жизнь – он под­пи­шет бу­ма­гу об об­на­ру­жении поч­ти сто­про­цент­но­го до­ка­за­тель­ст­ва су­ще­ст­во­вания бо­зо­на Хигг­са, так на­зы­вае­мой час­ти­цы Бо­га, ко­то­рая при­да­ет осталь­ным час­ти­цам мас­су и, та­ким об­ра­зом, соз­да­ет ре­аль­ность имен­но в том ви­де, в ко­то­ром она су­ще­ст­ву­ет.

(thumbnail)
> Ими­та­ция то­го, как мо­гут вы­гля­деть дан­ные столк­но­ве­ния бо­зо­на Хигг­са.

Д-р Саль­ва­то­ре – один из 3300 уче­ных, ра­бо­таю­щих в ATLAS, про­ек­те, вклю­чаю­щем соз­дание, об­ра­бот­ку и ана­лиз дан­ных от Боль­шо­го ад­рон­но­го кол­лай­де­ра (БАК) во все­мир­но из­вест­ной швей­цар­ской ла­бо­ра­то­рии, CERN. «Когда я впер­вые по­пал в CERN в 1994 го­ду, – го­во­рит д-р Саль­ва­то­ре, – это бы­ло мое пер­вое пре­бы­вание за границей. И моя ра­бо­та здесь – а дли­лась она все­го ме­сяц – убе­ди­ла ме­ня в том, что я хо­чу ра­бо­тать над чем-то, свя­зан­ным с ней. Я знал, что бу­ду ра­бо­тать над кан­ди­дат­ской в об­лас­ти фи­зи­ки час­тиц, и знал, что хо­чу занимать­ся этим имен­но здесь».

В июне это­го го­да уче­ные из ATLAS и их кол­ле­ги из CMS, дру­го­го экс­пе­ри­мен­та CERN, объ­я­ви­ли о том, что они об­на­ру­жи­ли ве­ро­ят­ное до­ка­за­тель­ст­во су­ще­ст­во­вания бо­зо­на Хигг­са, важ­ной суб­атом­ной час­ти­цы, чье су­ще­ст­во­вание пред­по­ла­га­лось чис­то тео­ре­ти­че­­ски на про­тя­жении пол­ве­ка, но ко­то­рой никто не на­блю­дал. Эту но­вость ок­ре­сти­ли «одним из са­мых важ­ных на­уч­ных от­кры­тий всех вре­мен», и сде­лал это не кто иной, как секс-сим­вол на­уч­ной сфе­ры, про­фес­сор Брай­ан Кокс [Brian Cox]. И – от­ло­жим в сто­ро­ну та­кую ме­лочь, как са­мо соз­дание БАК – Хиггс был об­на­ру­жен поч­ти це­ли­ком и пол­но­стью с по­мо­щью Linux. На са­мом де­ле, мно­гие из тех уче­ных, с ко­то­ры­ми мы бе­се­до­ва­ли, ска­за­ли, что ина­че сде­лать это бы­ло бы невоз­мож­но.

Ин­те­рес об­ще­ст­вен­но­сти к ра­бо­те CERN неуди­ви­те­лен. Не­воз­мож­но остать­ся равно­душ­ным при раз­го­во­рах об уско­ри­те­лях час­тиц, кван­то­вой ме­ханике и воссоз­дании то­го со­стояния, в ко­то­ром пре­бы­ва­ла Все­лен­ная в са­мом на­ча­ле вре­мен, да­же ес­ли вы не понимае­те то­го, что на са­мом де­ле оз­на­ча­ют по­ня­тия су­пер-сим­мет­рии и эле­мен­тар­ной час­ти­цы. Внут­ри кол­лай­де­ра про­то­ны на­прав­ля­ют­ся друг на дру­га со ско­ро­стью, близ­кой к ско­ро­сти све­та. Они про­ле­та­ют по­ряд­ка 17 миль замк­ну­то­го про­стран­ст­ва под Фран­ко-Швей­цар­ски­ми Аль­па­ми, и суб­атом­ные оскол­ки их столк­но­вений фик­си­ру­ют­ся одним или несколь­ки­ми из се­ми де­тек­то­ров, раз­ме­щен­ных по пе­ри­мет­ру коль­ца. ATLAS и CMS – только два из них.

И неве­ро­ят­ное фи­зи­че­­ское яв­ление столк­но­вения двух про­то­нов – это лишь на­ча­ло напряженной ра­бо­ты; именно то, что про­ис­хо­дит по­том, тре­бу­ет на­ли­чия од­но­го из крупней­ших в ми­ре ком­пь­ю­тер­ных про­ек­тов с от­кры­тым ко­дом.

БАК – это мно­го дан­ных

(thumbnail)
> Ком­пь­ю­тер­ную сеть рас­пре­де­лен­ных вы­чис­ле­ний Ве­ли­ко­бри­та­нии, GridPP, мож­но про­смат­ри­вать че­рез раз­ные пор­та­лы.

Экс­пе­ри­мен­ты или «со­бы­тия» в БАК да­ют мас­су ин­фор­ма­ции. Да­же по­сле от­бра­сы­вания 90 % дан­ных, по­лу­чен­ных его сен­со­ра­ми, по из­на­чаль­ным при­бли­зи­тель­ным под­сче­там, для хранения дан­ных от кол­лай­де­ра по­тре­бу­ет­ся по­ряд­ка 15 пе­та­байт еже­год­но. В 2011 го­ду кол­лай­дер пре­доста­вил око­ло 23 пе­та­байт дан­ных для ана­ли­за, а в 2012-м ожи­да­ет­ся, что эта циф­ра вы­рас­тет до 30 ПБ, то есть в два раза пре­взой­дет из­на­чаль­но планируе­мый по­ка­за­тель. Этой зи­мой уско­ри­тель за­кро­ет­ся на 20 ме­ся­цев на ре­монт и мо­дерниза­цию, что при­ве­дет к еще боль­ше­му уве­ли­чению объема дан­ных, по­лу­чен­ных в ре­зуль­та­те экс­пе­ри­мен­тов.

Вот эти циф­ры и есть про­дукт: тес­ти­руя ре­зуль­та­ты, фи­зи­ки не ра­бо­та­ют ис­клю­чи­тель­но с по­следними дан­ны­ми. Со­бы­тие внут­ри кол­лай­де­ра никогда не рас­смат­ри­ва­ет­ся изо­ли­ро­ван­но, но всегда счи­та­ет­ся ча­стью це­ло­го. Сбор дан­ных от БАК, их рас­пре­де­ление и тес­ти­ро­вание – ко­лоссаль­ная за­да­ча. «Са­мое глав­ное ис­пы­тание для нас при ком­пь­ю­тер­ной об­ра­бот­ке дан­ных, – объ­яс­ня­ет Ян Берд [Ian Bird], ру­ко­во­ди­тель про­ек­та Worldwide LHC Computing Grid, – это по­иск ре­сур­сов, ко­то­рые по­на­до­бят­ся для экс­пе­ри­мен­та в бу­ду­щем, по­то­му что и объ­ем дан­ных, и тре­бо­вания к их об­ра­бот­ке бу­дут все вре­мя по­вы­шать­ся, а эко­но­ми­че­­ская си­туа­ция та­ко­ва, что фи­нан­си­ро­вание силь­но не уве­ли­чить».

Проводя па­рал­лель, мож­но ска­зать, что Google еже­днев­но об­ра­ба­ты­ва­ет око­ло 25 ПБ. Но при этом Google не ана­ли­зи­ру­ет ка­ж­дый пик­сель в ка­ж­дой бу­к­ве ка­ж­до­го сло­ва, по­ме­щае­мо­го в ар­хи­вы, из-за то­го, что в нем за­ре­ги­ст­ри­ро­ва­на подпись основ­ной час­ти­цы, ко­то­рую по­камест никто не на­блю­дал.

«То, чем мы занима­ем­ся, не по­хо­же на то, чем занима­ют­ся осталь­ные, – го­во­рит Берд. – Ска­жем, ска­чав ви­део, вы по­лу­чи­те нема­ло дан­ных, но боль­шин­ст­во, ско­рее все­го, про­сто по­смот­рит де­сять пер­вых фай­лов, и их мож­но со­хранить в кэ­ше, что­бы уско­рить об­ра­бот­ку. На­ша про­бле­ма в том, что мы ра­бо­та­ем с ко­лоссаль­ны­ми на­бо­ра­ми дан­ных, и фи­зи­кам ну­жен весь на­бор це­ли­ком. Им нуж­ны не пер­вые че­ты­ре ги­га­бай­та это­го на­бо­ра, а все 2,5 ПБ – так же, как и ты­ся­че дру­гих ис­сле­до­ва­те­лей. И вы не мо­же­те ис­поль­зо­вать обыч­ную ком­мер­че­скую сеть пе­ре­да­чи дан­ных для ре­шения этой про­бле­мы».

Пау­ло Ка­ла­фиу­ра [Paulo Calafiura] – глав­ный ар­хи­тек­тор экс­пе­ри­мен­таль­но­го ПО ATLAS, и он ра­бо­та­ет в этом про­ек­те с 2001 го­да. Тогда ощу­щение его мас­штаб­но­сти мно­гое из­менило.

«Мы бы­ли на пе­ре­до­вой “боль­ших дан­ных”, – го­во­рит Ка­ла­фиу­ра. – Когда я впер­вые ска­зал, что у нас бу­дет 10 ПБ дан­ных в год, у на­ро­да че­лю­сти от­вис­ли. В на­ши дни Google или Facebook мо­гут без осо­бых уси­лий сде­лать это в лю­бом из сво­их цен­тров об­ра­бот­ки дан­ных. Од­на­ко в нау­ке мы по-прежнему оста­ем­ся ли­де­ра­ми по объ­е­му дан­ных». Бу­ду­чи по спе­ци­аль­но­сти про­грам­ми­стом, Ка­ла­фиу­ра име­ет бо­га­тый опыт ра­бо­ты в об­лас­ти фи­зи­ки. До на­ча­ла ра­бо­ты в ATLAS он по­мо­гал пи­сать GAUDI Framework – это фун­да­мент боль­шин­ст­ва при­ло­жений фи­зи­ки вы­со­ких энер­гий, осо­бен­но ис­поль­зуе­мых в CERN. Идея GAUDI за­клю­ча­лась в соз­дании об­щей плат­фор­мы для фи­зи­че­­ских ис­сле­до­ваний, что­бы об­лег­чить со­трудниче­­ст­во уче­ным все­го ми­ра.

До GAUDI, по сло­вам Ка­ла­фиу­ры, боль­шин­ст­во про­грамм для ана­ли­за обыч­но пи­са­лись по ме­ре на­доб­но­сти на язы­ке FORTRAN. Бла­го­да­ря пе­ре­хо­ду на объ­ект­но-ори­ен­ти­ро­ван­ную сре­ду для сбо­ра дан­ных, мо­де­ли­ро­вания и ана­ли­за с ис­поль­зо­ванием C++, ко­ман­да, в ко­то­рой ра­бо­тал Ка­ла­фиу­ра, за­ло­жи­ла осно­вы ши­ро­ко­мас­штаб­но­го гло­баль­но­го со­трудниче­­ст­ва на осно­ве ра­бо­ты CERN.

«Сре­да GAUDI оп­ре­де­лен­но яв­ля­ет­ся муль­ти­п­лат­фор­мен­ной, – го­во­рит Ка­ла­фиу­ра. – Сна­ча­ла про­грам­ма ATLAS под­дер­жи­ва­лась ря­дом плат­форм Unix, а GAUDI под­дер­жи­ва­ла – и под­дер­жи­ва­ет – Windows. При­мер­но в 2005 го­ду мы от­клю­чи­ли сбор­ку Solaris [из-за от­сут­ст­вия ин­те­ре­са], а до это­го боль­шая часть обо­ру­до­вания ра­бо­та­ла на HPUX. Но сер­ве­ры пе­ре­шли на Linux, и все бы­ли до­воль­ны».

«В дан­ный мо­мент, – про­дол­жа­ет Ка­ла­фиу­ра, – с точ­ки зрения на­стоя­щих ком­пь­ю­тер­ных тех­но­ло­гий и раз­ра­бот­ки при­клад­ных про­грамм мы яв­ля­ем­ся в чис­том ви­де мас­тер­ской Linux. Рас­тет чис­ло тех, кто ра­ту­ет за MacOS, но ра­бо­та ве­дет­ся на са­мой луч­шей осно­ве».

По сло­вам Ка­ла­фиу­ры, но­ут­бу­ки Apple все ча­ще встре­ча­ют­ся сре­ди уча­стников кон­фе­рен­ций по фи­зи­ке вы­со­ких энер­гий, но в них очень ред­ко мож­но встре­тить кноп­ку Пуск [Start]. «В сво­ей ду­ше ар­хи­тек­то­ра, – при­зна­ет он, – я не очень до­во­лен тем, что мы ра­бо­таем ис­клю­чи­тель­но на Linux, по­то­му что про­ще ре­шать неко­то­рые про­бле­мы, не бу­ду­чи за­ви­си­мым от плат­фор­мы. Но ис­поль­зование толь­ко Linux по­зво­ля­ет нам обой­ти ряд ост­рых уг­лов. На­при­мер, мы об­су­ж­да­ли non-POSIX функ­цию Linux под на­званием Splice – это ка­на­л, где вы не ко­пи­руе­те дан­ные, что по­вы­ша­ет эф­фек­тив­ность на­шей об­ра­бот­ки дан­ных».

Со­трудниче­­ст­во в об­лас­ти от­кры­то­го ко­да

Око­ло 10 000 фи­зи­ков по все­му ми­ру ра­бо­та­ют над про­ек­та­ми, свя­зан­ны­ми с CERN; две тре­ти из них бро­ше­ны на круп­ные экс­пе­ри­мен­ты, ATLAS и CMS.

Ана­лиз дан­ных, про­из­ве­ден­ных БАК – это дер­зание на мно­гих уров­нях. Пре­достав­ление уче­ным ре­зуль­та­тов подразумевает мас­со­вую пе­ре­да­чу дан­ных. За­тем вста­ет во­прос об­ра­бот­ки этих дан­ных. На­деж­ность – то­же важ­ный ас­пект: ес­ли на сер­ве­ре где-то по­сре­ди про­цес­са про­изой­дет сбой по­сле двух­су­точ­ной ра­бо­ты, его пе­ре­за­пуск бу­дет сто­ит все­го ранее за­тра­чен­но­го дра­го­цен­но­го вре­мени и уси­лий.

Сфе­ра об­ра­бот­ки и хранения дан­ных в CERN обес­пе­чи­ва­ет­ся мощ­ным про­ек­том рас­пре­де­лен­ных вы­чис­лений внут­ри од­ной из са­мых мощ­ных вы­чис­ли­тель­ных се­тей в ми­ре, с са­мым ши­ро­ким ох­ва­том. Точ­ная тер­ми­но­ло­гия и реа­ли­за­ция WLCG раз­ная в 36 стра­нах и 156 ор­ганиза­ци­ях, принимаю­щих уча­стие в про­ек­те, но по сути это – мно­го­уровневая сеть для досту­па и ре­сур­сов. В цен­тре этой се­ти рас­по­ла­га­ет­ся CERN, или Tier 0 (T0), рас­по­ла­гаю­щий свыше 28 000 ло­ги­че­­ских CPU для обес­пе­чения рас­пре­де­лен­ных вы­чис­лений. T0 – это ме­сто, где генери­ру­ют­ся необ­ра­бо­тан­ные экс­пе­ри­мен­таль­ные дан­ные. С T0 со­единены – ча­ще все­го 10-Gbps во­лок­ном – цен­тры Tier 1 (T1), ко­то­рые обыч­но рас­по­ла­га­ют­ся в круп­ных на­цио­наль­ных ла­бо­ра­то­ри­ях фи­зи­ки вы­со­ких энер­гий и вы­сту­па­ют в ро­ли локаль­ных уз­лов. В боль­шин­ст­ве слу­ча­ев все T1 от­ра­жа­ют одни и те же дан­ные, про­из­ве­ден­ные в CERN.

Ни­же цен­тров T1 рас­по­ла­га­ют­ся цен­тры об­ра­бот­ки дан­ных Tier 2 (T2). Как пра­ви­ло, они рас­по­ло­же­ны в круп­ных универ­си­те­тах, где име­ют­ся необ­хо­ди­мые ре­сур­сы, что­бы обес­пе­чить сво­бод­ное ме­сто, стой­ки и как минимум од­но­го со­трудника для ра­бо­ты с ними. Обыч­но со­единение ме­ж­ду цен­тра­ми T1 и T2 осу­ще­ст­в­ля­ет­ся че­рез на­цио­наль­ную ака­де­ми­че­скую сеть (в Ве­ли­ко­бри­тании это JANET), и по­это­му они име­ют вы­со­кую ско­рость, но не спе­ци­аль­но вы­де­лен­ный тра­фик. Локаль­но хра­нят­ся не все ис­сле­до­ва­тель­ские дан­ные – ско­рее, под­на­бо­ры дан­ных, пред­став­ляю­щие ин­те­рес для оп­ре­де­лен­ной ор­ганиза­ции, бу­дут на­хо­дит­ся на по­сто­ян­ном хранении, а осталь­ные дан­ные бу­дут по ме­ре надо­бно­сти брать­ся в T1.

Уч­ре­ж­дения Tier 3 (T3) – это, как пра­ви­ло, менее мас­штаб­ные универ­си­те­ты и ис­сле­до­ва­тель­ские цен­тры, ко­то­рым не тре­бу­ют­ся от­дель­но вы­де­лен­ные для ра­бо­ты ме­ст­ные ре­сур­сы, но ко­то­рые, со­глас­но тре­бо­ваниям, ска­чи­ва­ют дан­ные из се­ти T2 и обес­пе­чи­ва­ют их об­ра­бот­ку в се­ти рас­пре­де­лен­ных вы­чис­лений.

Су­ще­ст­ву­ет несколь­ко ин­фор­ма­ци­он­ных он­лайн-панелей, ку­да ка­ж­дый мо­жет зай­ти и уви­деть со­стояние се­ти (са­мые ин­фор­ма­тив­ные – http://dashb-wlcg-transfers.cern.ch/ui/, https://netstat.cern.ch/monitoring/network-statistics/visual/?p=ge и http://wlcg.web.cern.ch/. В на­стоя­щий мо­мент име­ет­ся око­ло 90 000 фи­зи­че­­ских CPU на 345 893 ло­ги­че­­ских ядрах, со­единен­ных с WLCG. Об­щая ем­кость хранения со­став­ля­ет 300 ПБ. В Ве­ли­ко­бри­тании на­цио­наль­ный про­ект рас­пре­де­лен­ных вы­чис­лений WLCG из­вес­тен как GridPP, и управ­ля­ет им из Универ­си­те­та Окс­фор­да Пит Гронбаx [Pete Gronbach]. Со­глас­но кар­те се­ти – www.gridpp.ac.uk – с GridPP сое­динено бо­лее 37 000 ло­ги­че­­ских ядер CPU, и все это ра­бо­та­ет как еди­ный ре­сурс для уче­ных, занимаю­щих­ся ана­ли­ти­кой на осно­ве дан­ных CERN.

«Мы по­сто­ян­но про­во­дим монито­ринг сис­те­мы, убе­ждаясь, что на­ши сер­ви­сы ра­бо­та­ют нор­маль­но, – объ­яс­ня­ет Гронбаx. – Ес­ли вы по­тер­пе­ли неуда­чу в ка­ком-ли­бо тес­те, это ото­бра­жа­ет­ся на кон­троль­ной панели, и от­вет­ст­вен­ные за монито­ринг на­блю­да­ют за таки­ми ве­ща­ми и при­сваи­ва­ют та­ким цен­трам та­лон неис­прав­но­сти. Есть про­то­кол, со­глас­но ко­то­ро­му центр, что­бы быть ча­стью се­ти, обя­зан обеспечивать оп­ре­де­лен­ный уровень услу­г, и неис­прав­ность долж­на быть уст­ранена за оговорен­ное вре­мя. Все де­ла­ет­ся на очень про­фес­сио­наль­ном уровне – воз­мож­но, вы не жда­ли та­ко­го от универ­си­те­та. Но это не та вещь, с ко­то­рой мы мо­жем шу­тить».

Одно из тре­бо­ваний для цен­тра T2 –на­ли­чие ра­ботника с пол­ной за­ня­то­стью, чья обя­зан­ность – под­дер­жи­вать ре­сур­сы се­ти, и еженедель­но про­во­дят­ся ви­део- или ау­дио­кон­фе­рен­ции ме­ж­ду сисад­мина­ми WLCG, что­бы обес­пе­чить кор­рект­ную ра­бо­ту всей се­ти и свое­вре­мен­ное об­нов­ление ее ре­сур­сов.

Крайне важ­но, что Linux по­зво­ля­ет цен­трам HEP снизить рас­хо­ды, по­сколь­ку мож­но ис­поль­зо­вать бо­лее или менее об­щие ком­понен­ты во всей се­ти об­ра­бот­ки и хранения дан­ных. CERN – ог­ром­ное об­ще­ст­вен­ное вло­жение, бо­лее мил­ли­ар­да ев­ро еже­год­но, и он дол­жен уметь счи­тать день­ги. Это так­же оз­на­ча­ет, что CERN мо­жет под­дер­жи­вать ПО с от­кры­тым ко­дом, типа Disk Pool Manager (DPM), применя­емое для под­держ­ки кла­сте­ров хранения. Как и сле­ду­ет ожи­дать от ор­ганиза­ции, по­да­ри­в­шей челове­че­­ст­ву Все­мир­ную пау­ти­ну, она от­лич­но осоз­на­ет все пре­иму­ще­ст­ва со­вме­ст­ной раз­ра­бот­ки.

«GridPP су­ще­ст­ву­ет бо­лее 10 лет, – го­во­рит Гронбаx, – но мно­гие па­кет­ные сис­те­мы оста­лись те­ми же: мы ис­поль­зу­ем TORQUE и MAUI, на базе PBS. Один-два цен­тра ис­поль­зу­ют Grid Engine, но для него под­держ­ка не рас­про­странена. Та­кие ве­щи прак­ти­че­­ски неиз­мен­ны дол­гие го­ды. Дру­гие час­ти ПО, та­кие, как Computing Element (это эле­мент, си­дя­щий ме­ж­ду вхо­дя­щи­ми за­да­ча­ми поль­зо­ва­те­ля и их от­прав­кой в па­кет­ную сис­те­му об­ра­бот­ки), уже про­шли че­рез мно­же­ст­во по­ко­лений, и мы об­нов­ля­ем их при­мерно раз в пол­го­да».

По сло­вам Ка­ла­фиу­ры, мно­го­ядер­ная об­ра­бот­ка дан­ных ста­ла са­мым зна­чи­мым луч­шением се­ти рас­пре­де­лен­ных вы­чис­лений.

«Бла­го­да­ря мно­го­ядер­ной об­ра­бот­ке, – го­во­рит он, – мы смог­ли ис­поль­зо­вать спе­ци­фи­че­скую хит­рость Linux – от­вет­вить, ско­пи­ро­вать и за­пи­сать – для за­пуска вось­ми или 16 ко­пий од­но­го и то­го же при­ло­жения».

Сейчас основ­ное об­нов­ление, про­ис­хо­дя­щее в GridPP – уста­нов­ка Scientific Linux 6 (SL6) и ­свежей вер­сии Lustre для хранения фай­ло­вых сис­тем. SL со­вме­ст­но под­дер­жи­ва­ет­ся CERN и аме­ри­кан­ской ла­бо­ра­то­ри­ей Fermilab. На мо­мент пи­сания нашей ста­тьи SL6 ра­бо­та­ет на 99 365 ком­пь­ю­те­рах – это ниже нор­мы, видимо, из-за летних каникул в боль­шин­ст­ве стран се­вер­но­го по­лу­ша­рия. https://www.scientificlinux.org/about/stats/2012/arch.html

SL6 – от­ветв­ление Red Hat Enterprise Linux, вы­бран­ное за его неве­ро­ят­ную ста­биль­ность. Не все ис­сле­до­ва­те­ли применяют SL, и все ин­ст­ру­мен­ты, жизнен­но важ­ные для ра­бо­ты CERN, со­вмес­ти­мы с дру­ги­ми ди­ст­ри­бу­ти­ва­ми – по-прежнему по­пу­ля­рен Ubuntu. Но на всех сер­ве­рах, со­единен­ных с WLCG, вер­сия SL5 или вы­ше. «Что по­ра­до­ва­ло за по­следние 10 лет – это ав­то­ма­ти­че­­ская уста­нов­ка и ад­минист­ри­ро­вание этих сис­тем, – про­дол­жа­ет Грон­бах. – Мы мо­жем уста­нав­ли­вать сис­те­мы, ис­поль­зуя Pixiboot, Kickstart, CF Engine или Puppet для бы­ст­рой или уда­лен­ной пе­реуста­нов­ки уз­ла, по­то­му что ком­пь­ю­тер­ные цен­тры час­то рас­по­ла­га­ют­ся вне универ­си­те­та».

Унификация обо­ру­до­вания и от­ла­жен­ное FOSS так­же об­лег­ча­ет мно­гим цен­трам вы­ход он­лайн и воз­мож­ность пред­ло­жить свои ре­сур­сы се­ти. В июне Сас­сек­с стал цен­тром T2. Универ­си­тет при­сое­динил­ся к про­ек­ту ATLAS в 2009 го­ду, когда д-р Саль­ва­то­ре и д-р Анто­нел­ла Де Сан­то [Antonella De Santo] вошли в про­ект от Универ­си­те­та Ро­ял Хол­лоу­эй [Royal Holloway], еще од­но­го цен­тра T2, соз­дав груп­пу ATLAS. Бла­го­да­ря их ра­бо­те Сас­секс по­лу­чил фи­нан­си­ро­вание, так что д-р Саль­ва­то­ре, д-р Де Сан­то и ка­фед­ра ИТ смогли соз­дать центр об­ра­бот­ки дан­ных на 12 сто­ек, со 100 CPU и 150 TБ хранимых дан­ных, в зале с ес­те­ст­вен­ным ох­ла­ж­дением, за­тра­тив 80 000 фунтов.

Персональные инструменты
купить
подписаться
Яндекс.Метрика