В суперкомпьютерных центрах узловая функция системы управления заданиями – планирование или, по-другому, обслуживание очередей заданий. Несмотря на то, что к настоящему времени предложено немало нестандартных алгоритмов планирования, простые правила обслуживания считаются надежным и справедливым выбором. Обслуживание в порядке поступления (FIFO) является, пожалуй, наиболее известным из них. Запрет на запуск заданий вне очереди, как это предписывает дисциплина FIFO, для суперкомпьютерной системы означает, что в ней возникают искусственные простои ресурсов при непустой очереди. Этот эффект, известный под названием HOL (Head-Of-Line blocking), сильно ограничивает максимальную пропускную способность системы. Вопрос о снятии этого ограничения без принципиального изменения схемы дисциплины FIFO до недавнего времени считался открытым. Надежды на его положительное разрешение поддерживала известная в теории массового обслуживания парадигма специальных схем обслуживания, позволяющих существенно повышать качество работы системы обслуживания без изменения ее аппаратной части.
В докладе, представленном в мае на конференции «17th ACM/SPEC International Conference on Performance Engineering» (конференция B по рейтингу CORE), на моделях и на открытых данных от Google Borg впервые показано, что увеличение максимальной пропускной способности (и, как следствие, уменьшение среднего времени отклика) суперкомпьютерной системы при сохранении эффекта HOL действительно возможно. Владельцу системы достаточно допустить незначительные и понятные потери (в сравнении с FIFO) в справедливости обслуживания и в объемах уже выполненной вычислительной работы (другими словами, часть уже выполненной работы необходимо выполнять повторно с самого начала).
О том, какие изменения следует внести в схему обслуживания FIFO, к каким соотношениям между максимальной пропускной способностью, справедливостью обслуживания и потерянной работой приводит использование новой схемы, читайте в статье, опубликованной в Трудах конференции: Adityo Anggraito, Rostislav Razumchik, Andrea Marin. Kill Smart, Run Fast: Using Job Termination for Resource Efficiency in Data Centers // Proceedings of the 17th ACM/SPEC International Conference on Performance Engineering, ICPE 2026 (Florence, Italy, 4–8 May, 2026). – New York, NY, USA: ACM, 2026. P. 37–51. https://doi.org/10.1145/3777884.3796995
Международная деятельность
Новости Управление международно-технического сотрудничества ФИЦ ИУ РАН


