和一位朋友討論 LLM evaluation (成效評估) 和其一些 benchmark (比較基準) datasets 的相關問題
1. LLM 模型評估很難,那模型評估 (evaluation) 是什麼?
-
因為面對語言類型的任務通常沒有絕對的正確或錯誤,所以我們會設計一些資料來測驗 LLM 的能力,這些 benchmark datasets 只能作為驗證模型能力的某種 proxy。 而且各種資料集有各自專精的領域,類型包羅萬象,諸如:邏輯型、情緒型、翻譯、程式碼、數學解題、常識推理等等族繁不及備載。
-
以 BBH 基準資料集來說:
- 文字輸入:
False or not ( True ) and False is
- 我們會期望模型文字輸出:
False
- 文字輸入:
-
這麼做的好處是既有正確標準答案,又能大量生成合成資料集,因而能更有效率與規模化的評估。
-
進而驗證模型是否真的理解,而非單純死記輸出似是而非、似乎有理卻是瞎猜的的答案。
- 模型能力和參數量大小有關,還有看過的 tokens 量,所以能用越小的模型或越少的訓練資料就達到更好或接近好的成效表示其 LLM 更強大。
- 微軟發表的 phi-2 訓練資料集皆是優質的教科書內文,精選範例題目與過程明確的詳解答案,或許這樣對提升模型推理(math, coding)能力更有幫助,似乎不需一大堆品質不佳的資料,
- 正呼應所謂 "garbage in garbage out",資料品質和多元性可能也很重要。為我們指引了一種除堆砌參數量外的另一條研究方向。
-
MoE 意即 Mixtral of Experts,利用模型參數矩陣有稀疏性 (sparsity) 的概念,每次 inference 只使用到一部分的參數進行生成文字。
-
就像人類大腦一般,我們並不會無時無刻都使用大腦的所有部位來解決問題,有時是視覺任務,有時則是情感任務,由大腦對應位置的腦葉功能負責發揮。
-
Mixtral 8*7B 就是有 8 個 7 billion 參數的超大模型,共 56B,而每次只 load 2 個,也就是 2*7b = 14B。
- Meta 開源的 llama2 70B 則有 70 billion 參數,每次只能 load 全部 70B。
各種任務類型

模型大小和表現的關係 (n-shot 指的是問了幾次,例如 5-shot,就是同一個問題問 5 遍,再看有沒有得到答案)

