LLM360
/

CrystalChat

@@ -40,16 +40,121 @@ model-index:
       - name: accuracy
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 41.148       # Required. Example: 41.148
   - task:
       type: text-generation             # Required. Example: automatic-speech-recognition
     dataset:
       type: openai_humanneval          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name: OpenAI HumanEval          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: pass@1
         type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 31.707       # Required. Example: 41.148
-      - name: pass@10
         type: pass@10
         value: 65.755
   - task:
@@ -58,12 +163,12 @@ model-index:
       type: mbpp          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name: Mostly Basic Python Problems (mbpp)          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: pass@1
         type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 39.4      # Required. Example: 41.148
-      - name: pass@10
         type: pass@10
-        value: 59.895
 ---
 # CrystalChat

       - name: accuracy
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 41.148       # Required. Example: 41.148
+  - task:
+      type: multiple-choice             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: mmlu          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: Measuring Massive Multitask Language Understanding (MMLU)          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 52.789       # Required. Example: 41.148
+  - task:
+      type: multiple-choice             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: truthful_qa          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: Truthful QA          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 47.29       # Required. Example: 41.148
+  - task:
+      type: multiple-choice             # Required. Example: automatic-speech-recognition
+    dataset:
+      type:  winogrande         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name:  Winogrande         # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 70.639       # Required. Example: 41.148
+  - task:
+      type: multiple-choice             # Required. Example: automatic-speech-recognition
+    dataset:
+      type:  copa         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name:  COPA        # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 85       # Required. Example: 41.148
+  - task:
+      type: text-classification             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: boolq          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: Boolq         # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 82.783      # Required. Example: 41.148
+  - task:
+      type: question-answering             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: openbookqa          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: Openbook QA         # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 42      # Required. Example: 41.148
+  - task:
+      type: multiple-choice             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: hellaSwag	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: HellaSwag	          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy (10-shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 76.12       # Required. Example: 41.148
+      - name: accuracy (0-shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 73.312       # Required. Example: 41.148
+  - task:
+      type: question-answering             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: piqa	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: PIQA	          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 77.856       # Required. Example: 41.148
+  - task:
+      type: question-answering             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: ai2_arc	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: ARC (Easy)	          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 70.328       # Required. Example: 41.148
+  - task:
+      type: question-answering             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: ai2_arc	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: ARC (Challenge)	          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: accuracy (25-shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 51.706       # Required. Example: 41.148
+      - name: accuracy (0-shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 44.625       # Required. Example: 41.148
+  - task:
+      type: text-generation             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: gsm8k          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: GSM8K (Grade School Math 8K)          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: Accuracy (5 shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 28.052       # Required. Example: 41.148
   - task:
       type: text-generation             # Required. Example: automatic-speech-recognition
     dataset:
       type: openai_humanneval          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name: OpenAI HumanEval          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
+      - name: pass@1 (t=0.01)
         type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 31.707       # Required. Example: 41.148
+      - name: pass@10 (t=0.8)
         type: pass@10
         value: 65.755
   - task:
       type: mbpp          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name: Mostly Basic Python Problems (mbpp)          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
+      - name: pass@1 (t=0.01)
         type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 39.4      # Required. Example: 41.148
+      - name: pass@10 (t=0.8)
         type: pass@10
+        value: 59.895
 ---
 # CrystalChat