| Έναρξη προβλήματος: | 11-04-2026 23:00 |
| Κατάσταση δελτίου: | Ανοικτό |
| Τύπος δελτίου: | Βλάβη |
| Καταγράφων τεχνικός ΜΨΔ: | Πασχαλης Κοροσογλου |
| Αποκατάσταση από: | ΜΨΔ - Τμήμα Υπολογιστικών Υποδομών |
| Τρέχουσα σοβαρότητα: | Σοβαρό πρόβλημα σε δευτερεύον σύστημα παραγωγής που επηρεάζει μικρή ομάδα χρηστών |
17-04-2026 11:56 - Αρχική περιγραφή δελτίου
Το partition ampere του cluster Αριστοτέλης είναι εκτός λειτουργίας από το βράδυ του Μ. Σαββάτου (11/4) λόγω βλάβης υλικού στον κόμβο GPU που το εξυπηρετεί. Συγκεκριμένα, εντοπίστηκε βλάβη στο υποσύστημα τροφοδοσίας της πλακέτας GPU, η οποία αποτρέπει την τροφοδότηση και την αναγνώριση των επεξεργαστών γραφικών (8x A100 GPUs) από το σύστημα.
Επίπτωση:
- Το partition ampere δεν δέχεται νέες εργασίες (jobs).
- Εργασίες που είχαν υποβληθεί και βρίσκονταν σε αναμονή (pending) έχουν ανασταλεί.
Ως εναλλακτική προτείνεται η χρήση των διαθέσιμων πόρων GPU στο cluster Νεφέλη. Οδηγίες πρόσβασης και υποβολής εργασιών στη Νεφέλη είναι διαθέσιμες στη διεύθυνση:
- https://hpc.it.auth.gr/nefeli-access/
Επεξήγηση σοβαρότητας:
Πρόβλημα που έχει ως αποτέλεσμα τη διακοπή της σύνδεσης περιορισμένου αριθμού χρηστών του δικτύου (πχ χρηστών ενός κτιρίου ή ορόφων ενός κτιρίου), ή πρόβλημα (διακοπή) σε δευτερεύουσα ηλεκτρονική υπηρεσία. Αν η επίλυση εξαρτάται από τη ΜΨΔ, διατίθενται οι απαραίτητοι ανθρώπινοι πόροι εντός του ωραρίου 08:00-16:00 για την αντιμετώπιση του προβλήματος.