Portable Batch System (PBS)


последнее обновление: Среда Февраль 07 16:59:50 2001

Общая информация:

СОДЕРЖАНИЕ


Короткая инструкция "Как запускать задачи под PBS"

Запуск задачи:

Проверка статуса выполнения Вашей задачи:

Удаление заданий осуществляется командой qdel qid, где qid - номер задания в очереди, например:

Для дополнительной информации смотрите:

Portable Batch System (PBS)

свойства PBS :

...и многие другие.


Важные замечания: ошибки, изменения, другое

Если Вы столкнулись с проблемой или неправильной работой PBS, спрашивайте kolosov@itep.ru.

Любые предложения об изменении параметров исполнения задач (необходимая панять, процессорное время) также приветствуются.

Если вам нужны дополнительные ресурсы договоритесь об их выделении, с очень большой вероятностью вам это удастся. Любые самостоятельные действия могут окончиться плачевно.

Старайтесь запускать задачи, в особенности длительные, с локальных дисков нодов (cd /scratch в исполняемом скрипте). В этом случае дисковое пространство у вас не будет лимитироваться и ваша задача со значительно меньшей вероятностью может быть прервана из-за сетевых сбоев и штатных или нештатных перезагрузок серверов. Перезапуск нодов крайне маловероятен, ферма hydra (кластер CMS) до переноса в другое помещение проработала ровно год без остановок.


СОДЕРЖАНИЕ


Конфигурация PBS

Конфигурация ресурсов

Кластер состоит из сервера rrcsrv.itep.ru, на который разрешен интерактивный логин (клиентский ресурс) и 4-ех (на 07.02.2001) процесорных ресурсов (нодов), на которых выполняются задачи, которые Вы можете запустить только с сервера rrcsrv. На ноды интерактивный логин запрещен, однако, их лосальные диски видны с сервера rrcsrv, кластера CMS, и машин, находящихся под централизованным администрированием. Данные можно скопировать и удалить с жестких дисков нодов (/scr/rrc00#) любым удобным для вас способом (для удаленных машин вне itep.ru только scp или rsync -e ssh).
  • процессорные ресурсы:

    • RRCSRV: 8 процессоров rrc000 ... rrc003 (по 2 процессора в ноде)

  • клиентские ресурсы:

    • LINUX: rrcsrv, кластер CMS, машины, находящиеся под централизванным администрированием.
    • другие: с ограниченным доступом (предполагаются в будущем)

Конфигурации очередей (классы)
xxl; процессорное время свыше 5 суток (не ограничено)
large; максимальное процессорное время = 432000.0 c ( 7200 мин = 5 суток)
medium; максимальное процессорное время = 86400.0 c ( 1440 мин = 24 часа)
short; максимальное процессорное время = 18000.0 c ( 300 мин = 5 часов)
Если Вы не задаете максимальное процессорное время ни в скрипте, ни с помощью команды qsub, то задача автоматически ставится в класс large.

Другие параметры (количество задач на одного пользователя, общее количество задач на класс (xxl, large, medium, short), полное количество одновременно исполняемых задач и количество задач для конкретного пользователя или группы etc) могут меняться администратором в соответствии с загрузкой и текущими задачами.


Использование PBS: Первые Шаги

!!!! Пожалуйста, ознакомьтесь с этой страницей: !!!!


Как запустить задачу под PBS

Общая информация:
Вы должны зайти на rrcsrv с помощью команд slogin или ssh (файловая система общая), перекачать свой код и PBS скрипт (или создать скрипт), а также все необходимые для задачи входные файлы и запустить свою задачу. Она начнет выполняться на одном из процессорных ресурсов, указанных выше.
PBS скрипт:
Если Вы пользовались NQS, то можете использовать старый скрипт со следующими изменениями:

Notes


Проверка статуса выполнения задачи

Информацию о выполнении Вашей задачи Вы можете посмотреть с помощью двух различных команд :
  • xpbs - Graphical User Interface (GUI) для всех команд PBS. Если Вам необходимо узнать текущий статус PBS, кликните на: Manual Update (левый верхний угол главной страницы).
  • qstat - простой просмотр статуса задач.
Если Ваша задача не выполняется или ждет каких-то определенных ресурсов, а Вы не понимаете почему, то страничка Why is My Job Not Running поможет Вам определить проблему.

Выходные файлы и файлы с ошибками

Выходные файлы и файлы с ошибками, относящиеся к Вашей задаче, спасаются в директорию на rrcsrv, из которой Вы запускали задачу. Имена этих файлов таковы:
strerr: "jobname".sh.e"jobid"
stdout: "jobname".sh.o"jobid"
Подробнее о содержании этих файлов Вы можете посмотреть на qsub .

Другая информация о PBS

PBS system homepage, PBS NASA homepage, PBS Wayne homepage

Ошибки, Изменения & другое