antferdom · September 15, 2023 09:28 · Sep 15, 2023 · May 24, 2023
diff --git a/transformer_parameters.py b/transformer_parameters.py
@@ -1,15 +1,6 @@
 import torch
-from transformers import AutoModelForCausalLM
-
-model = AutoModelForCausalLM.from_pretrained('mosaicml/mpt-7b',
-                                              trust_remote_code=True,
-                                              torch_dtype=torch.bfloat16,
-                                            )
-model.eval()
-model.cuda()
-
-for name, param in model.named_parameters():
-    print(f"{name}   Modelsize: {param.numel()/1000**2:.1f}M parameters")
-    if "31" not in name:
-        param.requires_grad = False
-    print(name, param.requires_grad)
+
+model_size = sum(
+    p.numel() * p.element_size() for p in model.parameters() if p.requires_grad
+)
+model_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
diff --git a/transformer_parameters.py b/transformer_parameters.py
@@ -0,0 +1,15 @@
+import torch
+from transformers import AutoModelForCausalLM
+
+model = AutoModelForCausalLM.from_pretrained('mosaicml/mpt-7b',
+                                              trust_remote_code=True,
+                                              torch_dtype=torch.bfloat16,
+                                            )
+model.eval()
+model.cuda()
+
+for name, param in model.named_parameters():
+    print(f"{name}   Modelsize: {param.numel()/1000**2:.1f}M parameters")
+    if "31" not in name:
+        param.requires_grad = False
+    print(name, param.requires_grad)