Μη διαθεσιμότητα Partition ampere στη συστοιχία HPC Αριστοτέλης

Έναρξη προβλήματος: 11-04-2026 23:00
Κατάσταση δελτίου: Ανοικτό
Τύπος δελτίου: Βλάβη
Καταγράφων τεχνικός ΜΨΔ: Πασχαλης Κοροσογλου
Αποκατάσταση από: ΜΨΔ - Τμήμα Υπολογιστικών Υποδομών
Τρέχουσα σοβαρότητα: Σοβαρό πρόβλημα σε δευτερεύον σύστημα παραγωγής που επηρεάζει μικρή ομάδα χρηστών

17-04-2026 11:56 - Αρχική περιγραφή δελτίου

Το partition ampere του cluster Αριστοτέλης είναι εκτός λειτουργίας από το βράδυ του Μ. Σαββάτου (11/4) λόγω βλάβης υλικού στον κόμβο GPU που το εξυπηρετεί. Συγκεκριμένα, εντοπίστηκε βλάβη στο υποσύστημα τροφοδοσίας της πλακέτας GPU, η οποία αποτρέπει την τροφοδότηση και την αναγνώριση των επεξεργαστών γραφικών (8x A100 GPUs) από το σύστημα.

Επίπτωση:
- Το partition ampere δεν δέχεται νέες εργασίες (jobs).
- Εργασίες που είχαν υποβληθεί και βρίσκονταν σε αναμονή (pending) έχουν ανασταλεί.

Ως εναλλακτική προτείνεται η χρήση των διαθέσιμων πόρων GPU στο cluster Νεφέλη. Οδηγίες πρόσβασης και υποβολής εργασιών στη Νεφέλη είναι διαθέσιμες στη διεύθυνση:

- https://hpc.it.auth.gr/nefeli-access/

Επεξήγηση σοβαρότητας:

Πρόβλημα που έχει ως αποτέλεσμα τη διακοπή της σύνδεσης περιορισμένου αριθμού χρηστών του δικτύου (πχ χρηστών ενός κτιρίου ή ορόφων ενός κτιρίου), ή πρόβλημα (διακοπή) σε δευτερεύουσα ηλεκτρονική υπηρεσία. Αν η επίλυση εξαρτάται από τη ΜΨΔ, διατίθενται οι απαραίτητοι ανθρώπινοι πόροι εντός του ωραρίου 08:00-16:00 για την αντιμετώπιση του προβλήματος.