Μετάβαση στο περιεχόμενο

Απενεργοποίηση ουρών στη συστοιχία HPC "Αριστοτέλης" του ΑΠΘ

Έναρξη προβλήματος: 07-10-2024 17:29
Λήξη προβλήματος: 10-10-2024 15:24
Κατάσταση δελτίου: Κλειστό
Τύπος δελτίου: Βλάβη
Καταγράφων τεχνικός ΜΨΔ: Πασχαλης Κοροσογλου
Αποκατάσταση από: ΜΨΔ - Τμήμα Υπολογιστικών Υποδομών
Τρέχουσα σοβαρότητα: Σοβαρό πρόβλημα σε δευτερεύον σύστημα παραγωγής που επηρεάζει μικρή ομάδα χρηστών

07-10-2024 17:31 - Αρχική περιγραφή δελτίου

Λόγω προβλήματος σε κεντρικό σύστημα αποθήκευσης δεδομένων έχουμε απενεργοποιήσει τη δρομολόγηση εργασιών στη συστοιχία HPC "Αριστοτέλης". Οι χρήστες μπορούν να υποβάλλουν εργασίες αλλά αυτές δε θα δρομολογούνται προς εκτέλεση μέχρι νεωτέρας.

08-10-2024 13:22 - Ενημέρωση δελτίου

Η δρομολόγηση εργασιών στη συστοιχία "Αριστοτέλης" του ΑΠΘ έχει αποκατασταθεί.



Ένα μέρος των εργασιών που εκτελούνταν από χθες, 7 Οκτωβρίου 2024 16:00 έως και σήμερα 8 Οκτωβρίου στις 10:00 έχουν διακοπεί και πιθανώς θα χρειαστεί να υποβληθούν εκ νέου.



Τα παρακάτω storage volumes θα παραμείνουν εκτός λειτουργίας καθώς πραγματοποιείται ένας τελευταίος έλεγχος πριν την διάθεση των υποκείμενων δεδομένων:



- appbio_a

- art_a

- asat_b

- astro_a

- atlas_a

- atlas_b

- avlab_a

- clima_a

- cpg_a

- denovo_a

- eodata_a

- geoatm_a

- grastrofluids_a

- hcctcga_a

- heatwave_a

- indiana_a

- lap_a

- lap_b

- lap_c

- lapmg_a

- lapsat

- meteo

- meteo_a

- meteo_b

- meteo_d

- meteo_e

- meteo_f

- meteo_g

- pharm_a

- pharmngs_a

- popgen_a

- prevent_a

- pumpheat_a



Το δελτίο θα παραμείνει ανοιχτό μέχρι να αποκατασταθεί η πρόσβαση σε όλα τα παραπάνω volumes δεδομένων.



08-10-2024 16:33 - Ενημέρωση δελτίου

Έχει αποκατασταθεί η πρόσβαση στα εξής volumes δεδομένων:



- advanfo_a

- aspire_a

- elnes_a

- qccl_c

- sarm_a

09-10-2024 14:46 - Ενημέρωση δελτίου

Έχει αποκατασταθεί η πρόσβαση στα εξής volumes δεδομένων:



- astro_a

- cpg_a

- eodata_a

- heatwave_a

- lap_a

- lap_b

- meteo_b

- pharm_a

- pumpheat_a

10-10-2024 12:43 - Ενημέρωση δελτίου

Εχθές το απόγευμα αποκαταστάθηκε η πρόσβαση και στα εξής volumes δεδομένων:



- atlas_b

- denovo_a

- lapmg_a



**Τα δεδομένα από τα εναπομείναντα storage volumes (που επηρεάστηκαν από την βλάβη στο κεντρικό αποθηκευτικό σύστημα) έχουν αποκατασταθεί και θα γίνουν διαθέσιμα σήμερα, Πέμπτη 10 Οκτωβρίου, μέσα στην ημέρα.**



Παρακαλούμε τους χρήστες του HPC να προβούν σε έλεγχο των δεδομένων εντός των παραπάνω volume καθώς δεδομένα που έχουν παραχθεί τις δύο τελευταίες εβδομάδες ενδέχεται να έχουν επηρεαστεί από την βλάβη. Οι τεχνικοί του ΚΗΔ θα συνεχίσουν να πραγματοποιούν αυτοματοποιημένους έλεγχους ακεραιότητας των δεδομένων, παρόλο που τα storage volumes θα έχουν διατεθεί. Οι έλεγχοι αυτοί, λόγω του όγκου του συνόλου των δεδομένων, απαιτούν χρόνο, όμως δείχνουμε κατανόηση στο ότι η πρόσβαση στα υποκείμενα δεδομένα είναι σημαντικό να αποκατασταθεί το συντομότερο.



Παρακαλούμε, αν παρατηρηθεί ότι κάποια αρχεία που παράχθηκαν ή τροποποιήθηκαν κατά το διάστημα των τελευταίων δύο εβδομάδων δεν βρίσκονται στην θέση τους, να μας ενημερώσετε αποστέλλοντας μήνυμα στο hpc-support@it.auth.gr.

10-10-2024 15:25 - Κλείσιμο δελτίου

Η πρόσβαση στα εναπομείντα volumes έχει αποκατασταθεί.



Παρακαλούμε τους χρήστες της συστοιχίας εφόσον διαπιστώνουν κάποιο πρόβλημα στα δεδομένα που έχουν αποκατασταθεί να μας ενημερώσουν αποστέλλοντάς μας μήνυμα στο hpc-support@auth.gr.

Επεξήγηση σοβαρότητας:

Πρόβλημα που έχει ως αποτέλεσμα τη διακοπή της σύνδεσης περιορισμένου αριθμού χρηστών του δικτύου (πχ χρηστών ενός κτιρίου ή ορόφων ενός κτιρίου), ή πρόβλημα (διακοπή) σε δευτερεύουσα ηλεκτρονική υπηρεσία. Αν η επίλυση εξαρτάται από τη ΜΨΔ, διατίθενται οι απαραίτητοι ανθρώπινοι πόροι εντός του ωραρίου 08:00-16:00 για την αντιμετώπιση του προβλήματος.