Portable Batch System (PBS)
последнее обновление: Среда Февраль 07 16:59:50 2001
Общая информация:
- На ферме ITEP-RRC становлена PBS
.
- Вы можете запускать задачи на кластере:
- RRCSRV кластер (8 процессоров по 550 МГц):
в очереди xxl(более 5 суток), long(до 5 суток), meduim(до 24 часов), short(до 5 часов)
- Ваша задача выполнюется на определенном ноде. Его имя:
RRCSRV кластер:
rrc00#, где # - число от 0 до 3 (на 07.02.2001)
директория с Вашей задачей :
/scr/rrc00# , где # - число от 0 до 3 (по 2 процессора на нод)
Подробности : см в примере скрипта.
Все необходимые выходные файлы, полученные в
результате выполнения задачи (NTuples, logfiles или
другие виды файлов) необходимо переместить на Ваш
локальный диск. Диски кластера будут чиститься автоматически, чтобы
около 1/5 дискового пространства оставалось свободным.
Короткая инструкция "Как запускать задачи под PBS"
Запуск задачи:
- qsub [-key val] script_name на одну из очередей: xxl, large, medium, short
Ключи и параметры можно также указать в заголовке выполняемого файла
(скрипта), например:
#QSUB -l cput=20:00:00
Если Вы не задаете максимальное процессорное время ни в скрипте, ни с
помощью команды qsub, то задача автоматически ставится в класс l (до 5
суток, см. Конфигурации очередей (классы).
- Подробное описание смотрите в man qsub. Уведомление о выполнении
задания по E-mail отныне функционирует корректно, если указан
реальный адрес.
- Установите shell в Вашем скрипте: ДОЛЖЕН быть: #!/bin/csh,
#!/bin/tcsh, #!/bin/bash или #!/bin/sh
пример скрипта
- скрипт должен начинаться со строк:
#!/bin/csh
#PBS -N job_name
#PBS -l cput=20:00:00
#PBS -m b
#PBS -m e
#PBS -m a
#PBS -M user@somewhere.ru
Проверка статуса выполнения Вашей задачи:
- qstat -a -u user_name
Подробнее см. man qstat.
Удаление заданий осуществляется командой qdel qid, где qid - номер
задания в очереди, например:
- qdel 123
Подробнее см. man qdel.
Для дополнительной информации смотрите:
Portable Batch System (PBS)
свойства PBS :
- автоматическая балансировка загрузки,
- поддержка интерактивных процессов (не запущена, и не планируется. V.K.),
- графический интерфейс,
...и многие другие.
Если Вы столкнулись с проблемой или неправильной работой PBS, спрашивайте
kolosov@itep.ru.
Любые предложения об изменении параметров исполнения задач (необходимая
панять, процессорное время) также приветствуются.
Если вам нужны
дополнительные ресурсы договоритесь об их выделении, с очень большой
вероятностью вам это удастся. Любые самостоятельные действия могут
окончиться плачевно.
Старайтесь запускать задачи, в особенности длительные, с локальных
дисков нодов (cd /scratch в исполняемом скрипте). В этом случае
дисковое пространство у вас не будет лимитироваться и ваша задача со
значительно меньшей вероятностью может быть прервана из-за сетевых
сбоев и штатных или нештатных перезагрузок серверов. Перезапуск нодов
крайне маловероятен, ферма hydra (кластер CMS) до переноса в другое помещение
проработала ровно год без остановок.
- Конфигурация ресурсов
-
Кластер состоит из сервера rrcsrv.itep.ru, на который разрешен
интерактивный логин (клиентский ресурс) и 4-ех (на 07.02.2001) процесорных
ресурсов (нодов), на которых выполняются задачи, которые Вы можете
запустить только с сервера rrcsrv. На ноды интерактивный логин запрещен,
однако, их лосальные диски видны с сервера rrcsrv, кластера CMS, и
машин, находящихся под централизованным администрированием. Данные
можно скопировать и удалить с жестких дисков нодов (/scr/rrc00#) любым удобным
для вас способом (для удаленных машин вне itep.ru только scp или rsync
-e ssh).
процессорные ресурсы:
- RRCSRV: 8 процессоров rrc000 ... rrc003 (по 2 процессора в
ноде)
клиентские ресурсы:
- LINUX: rrcsrv, кластер CMS, машины, находящиеся под
централизванным администрированием.
- другие: с ограниченным доступом (предполагаются в
будущем)
- Конфигурации очередей (классы)
-
|
xxl; процессорное время свыше 5 суток (не ограничено)
|
large; максимальное процессорное время = 432000.0 c ( 7200 мин = 5 суток)
|
medium; максимальное процессорное время = 86400.0 c ( 1440 мин = 24 часа)
|
short; максимальное процессорное время = 18000.0 c ( 300 мин = 5 часов)
|
Если Вы не задаете максимальное процессорное время ни в скрипте, ни с
помощью команды qsub, то задача автоматически ставится в класс large.
Другие параметры (количество задач на одного пользователя, общее
количество задач на класс (xxl, large, medium, short),
полное количество одновременно исполняемых задач и количество задач
для конкретного пользователя или группы etc) могут меняться
администратором в соответствии с загрузкой и текущими задачами.
!!!! Пожалуйста, ознакомьтесь с этой страницей: !!!!
- Общая информация:
Вы должны зайти на rrcsrv с помощью команд slogin или ssh
(файловая система общая), перекачать свой код и PBS скрипт (или создать
скрипт), а также все
необходимые для задачи входные файлы и запустить свою задачу.
Она начнет выполняться на одном из процессорных ресурсов, указанных выше.
PBS скрипт:
Если Вы пользовались NQS, то можете использовать старый скрипт со
следующими изменениями:
- добавить в начало скрипта опции PBS (класс, требуемые ресурсы,
другое).
Примеры опций и короткое описание их можно найти в:
пример скрипта .
- Запуск задачи:
-
Пример:
[rrcsrv] qsub myscript
Request 327.rrcsrv submitted to queue: long.
Эта команда запускает задачу с rrcsrv.
Все параметры задачи должны быть определены в теле скрипта myscript
Вы можете также определять параметры задачи не в теле скрипта, а с помощью
команды
qsub [-key val]
, где [-key val] - необходимые параметры и ключи.
Notes
Вы можете контролировать процесс выполнения Вашей задачи просматриванием
файлов с ошибками и выходными данными, которые находятся в директории:
/scr/rrc00[nr]/username/your_job_dir для кластера rrcsrv.
[nr] - от 0 до 3, your_job_dir - директория, созданная в скрипте, в
которой выполняется Ваша задача.
Информацию о выполнении Вашей задачи Вы можете посмотреть с помощью двух
различных команд :
- xpbs -
Graphical User Interface (GUI) для всех команд PBS.
Если Вам необходимо узнать текущий статус PBS, кликните на:
Manual Update (левый верхний угол главной страницы).
- qstat
- простой просмотр статуса задач.
Если Ваша задача не выполняется или ждет каких-то определенных ресурсов, а
Вы не понимаете почему, то страничка
Why
is My Job Not Running поможет Вам определить проблему.
Выходные файлы и файлы с ошибками, относящиеся к Вашей задаче, спасаются в
директорию на rrcsrv, из которой Вы запускали задачу.
Имена этих файлов таковы:
strerr: "jobname".sh.e"jobid"
stdout: "jobname".sh.o"jobid"
Подробнее о содержании этих файлов Вы можете посмотреть на
qsub
.
PBS system homepage,
PBS NASA homepage,
PBS
Wayne homepage
- Будьте аккуратны с параметрами команды qsub. Если параметры указаны
неверно, то Ваша задача может ждать начала выполнения или выполняться
очень долго.
- Иногда задача выкидывается непосредственно сразу после запуска без
выполнения каких-либо действий. Это означает вероятнее всего, что
процессорный ресурс переполнен. Вы можете попробовать запустить задачу на
другом клиентском ресурсе или подождать.