Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[SARC-312] Update @satyaog code from PR #115 to harmonize GPU names #148

Open
wants to merge 4 commits into
base: master
Choose a base branch
from

Conversation

notoraptor
Copy link
Contributor

Cette PR s'inspire de la PR #115 pour convertir les gpu_type des nodes en noms plus descriptifs.

Les noms descriptifs des GPUs sont censés être les mêmes que ceux utilisés dans le package IGUANE: https://github.com/mila-iqia/IGUANE/blob/master/iguane/rawdata.toml

La PR actuelle se content d'ajouter une méthode ClusterConfig.harmonize_gpu(nodename, gpu_type) -> str qui retourne le nom descriptif pour un nodename (e.g. cdr1234) et un gpu_type (e.g. a100) donnés. J'ai préféré ne pas modifier les jobs pour le moment (job.alllocated.gpu_type retourne toujours les gpu_types tels qu'on les connait actuellement).

@notoraptor notoraptor changed the title Update @satyaog code from PR #115 to harmonize GPU names [SARC-312] Update @satyaog code from PR #115 to harmonize GPU names Jan 30, 2025
@notoraptor notoraptor force-pushed the update-harmonize-gpu-desc branch from 6a75682 to 4e813c6 Compare January 30, 2025 15:27
@notoraptor
Copy link
Contributor Author

PS: J'ai finalement ajouté un commit qui va chercher les noms des GPUs dans la fonction update_allocated_gpu_type(), vu que c'était une des tâches à faire dans le ticket associé (SARC 312). Le commit utilise la nouvelle méthode ClusterConfig.harmonize_gpu(nodename, gpu_type) pour convertir le gpu_type en un nom plus descriptif.

J'ai aussi reformaté le code car le CI de Github se plaignait (je ne sais pas exactement pourquoi).

Fix and improve harmonization code
@notoraptor
Copy link
Contributor Author

PR mise à jour ! En testant la PR sur des jobs réels de sarc, j'ai détecté des noms de gpu_type supplémentaires qui n'étaient pas encore pris en charge, et je les ai rajoutés.

Deux remarques:

  1. Sur Graham, il y a ces noeuds avec une a100 dont je ne suis pas sûr de la nature. Pour le moment, j'ai supposé que c'était une A100-PCIe-80GB:
NodeName=gra[1361-1362] CPUs=32 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=1 RealMemory=257419 Weight=6 Gres=gpu:a100:4 TmpDisk=3565158 Feature=icelake,a100
# gra[1361-1362]
# 2 Sockets
# 16 CoresPerSocket
# 1 ThreadsPerCore
# 256 GB
# 3.5 TB TmpDisk
# 4 x A100 (80GB) GPUs
  1. Sur Cedar, il y a des noeuds avec un gpu nommé a40. Je ne sais pas ce que c'est. Pour le moment, la PR ne prend pas en charge ce GPU:
NodeName=cdr[2683-2687] Sockets=2 CoresPerSocket=24 ThreadsPerCore=1 RealMemory=768000 Weight=102 Gres=gpu:a40:4 TmpDisk=14598057 Feature=a40

@nurbal @satyaog

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant