Add FuseChat-Llama-3.1-8B-Instruct, FuseChat-Gemma-2-9B-Instruct and …

…FuseChat-Qwen-2.5-7B-Instruct to AlpacaEval
tatsu-lab · Dec 15, 2024 · ea50d84 · ea50d84
1 parent 0b4af76
commit ea50d84
Show file tree

Hide file tree

Showing 14 changed files with 38,725 additions and 0 deletions.
diff --git a/results/FuseChat-Gemma-2-9B-Instruct/model_outputs.json b/results/FuseChat-Gemma-2-9B-Instruct/model_outputs.json
diff --git a/results/FuseChat-Gemma-2-9B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/FuseChat-Gemma-2-9B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/results/FuseChat-Llama-3.1-8B-Instruct/model_outputs.json b/results/FuseChat-Llama-3.1-8B-Instruct/model_outputs.json
diff --git a/results/FuseChat-Llama-3.1-8B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/FuseChat-Llama-3.1-8B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/results/FuseChat-Qwen-2.5-7B-Instruct/model_outputs.json b/results/FuseChat-Qwen-2.5-7B-Instruct/model_outputs.json
diff --git a/results/FuseChat-Qwen-2.5-7B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/FuseChat-Qwen-2.5-7B-Instruct/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv b/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
@@ -7,9 +7,12 @@ gemma-2-9b-it-WPO-HB,77.82503168985093,1.2355857177790277,640,163,2,805,79.62732
 SelfMoA_gemma-2-9b-it-SimPO,71.9958856144492,1.3495341826849294,597,208,0,805,74.16149068322981,community,1930,75.04950944068965,0.4428706876009843
 blendaxai-gm-l3-v35,73.41035740244067,1.254951147343878,607,196,2,805,75.527950310559,community,2186,73.37270365010379,0.6163911450738288
 gemma-2-9b-it-SimPO,65.86422561532919,1.423459922555078,540,264,1,805,67.14285714285714,community,1833,72.3508446939842,0.5167873784867067
+FuseChat-Gemma-2-9B-Instruct,70.49713534560247,1.3426390784895994,575,225,5,805,71.73913043478261,community,2155,70.18106263911686,0.5941187965717439
 openpipe-moa-gpt-4-turbo-v1,63.15493451236265,1.422980098799326,515,283,7,805,64.40993788819875,community,1856,68.37866250336802,0.7309418614587613
 gemma-2-9b-it-DPO,65.35922380122982,1.402802336467638,536,268,1,805,66.64596273291924,community,2016,67.6620382198043,0.6605613085864308
+FuseChat-Llama-3.1-8B-Instruct,63.33158292362734,1.4225069834256892,518,286,1,805,64.40993788819875,community,2033,65.38623116037492,0.6668876066398686
 Together-MoA,59.8688062333292,1.434305604543079,490,314,1,805,60.93167701863354,community,1825,65.37996976852163,0.7392392836781445
+FuseChat-Qwen-2.5-7B-Instruct,64.64069997299381,1.4301369533298258,531,273,1,805,66.02484472049689,community,2173,63.58298649463735,0.6161348916427868
 Llama3-PBM-Nova-70B,62.95129983494411,1.3965649883206293,512,293,0,805,63.60248447204969,community,2207,62.39078292806358,0.7630318008010619
 Storm-7B-best-of-64,63.04099075186919,1.4253258915161846,519,286,0,805,64.472049689441,community,2340,61.63789557199839,
 Together-MoA-Lite,56.593045622273294,1.4464848562244548,456,347,2,805,56.77018633540373,community,1968,59.1415240989275,0.7580510219326322

diff --git a/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv b/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv
@@ -193,3 +193,6 @@ NullModel,-1.0518971527519405,0.2538445948493148,1.9057926500734572
 GPO-Llama-3-8B-Instruct-GPM-2B,-1.1688688988236986,0.7678817822697138,-0.4997466376902971
 SPPO-Llama-3-8B-Instruct-GPM-2B,-1.2289746990068291,0.8046474033904255,-0.6767509934260389
 Llama-3-Instruct-8B-RainbowPO,-1.3587935106099684,0.7600298380500641,0.1779421196386809
+FuseChat-Gemma-2-9B-Instruct,-1.1543337259190067,0.6937176687992737,1.0978693063596836
+FuseChat-Llama-3.1-8B-Instruct,-1.1271666967241551,0.7265708972653502,0.8583100053446140
+FuseChat-Qwen-2.5-7B-Instruct,-0.9656160039317526,0.6283493169692116,0.7193794241118705
diff --git a/src/alpaca_eval/models_configs/FuseChat-Gemma-2-9B-Instruct/configs.yaml b/src/alpaca_eval/models_configs/FuseChat-Gemma-2-9B-Instruct/configs.yaml
@@ -0,0 +1,17 @@
+FuseChat-Gemma-2-9B-Instruct:
+  completions_kwargs:
+    model_name: FuseAI/FuseChat-Gemma-2-9B-Instruct
+    model_kwargs:
+      dtype: bfloat16
+    max_new_tokens: 4096
+    temperature: 0.5
+    top_p: 1.0
+    batch_size: 1000
+    use_beam_search: true
+    stop_token_ids:
+      - 1
+      - 107
+  fn_completions: vllm_local_completions
+  pretty_name: FuseChat-Gemma-2-9B-Instruct
+  prompt_template: FuseChat-Gemma-2-9B-Instruct/prompt.txt
+  link: https://huggingface.co/FuseAI/FuseChat-Gemma-2-9B-Instruct
diff --git a/src/alpaca_eval/models_configs/FuseChat-Gemma-2-9B-Instruct/prompt.txt b/src/alpaca_eval/models_configs/FuseChat-Gemma-2-9B-Instruct/prompt.txt
@@ -0,0 +1,3 @@
+<start_of_turn>user
+{instruction}<end_of_turn>
+<start_of_turn>model
diff --git a/src/alpaca_eval/models_configs/FuseChat-Llama-3.1-8B-Instruct/configs.yaml b/src/alpaca_eval/models_configs/FuseChat-Llama-3.1-8B-Instruct/configs.yaml
@@ -0,0 +1,20 @@
+FuseChat-Llama-3.1-8B-Instruct:
+  completions_kwargs:
+    model_name: FuseAI/FuseChat-Llama-3.1-8B-Instruct
+    model_kwargs:
+      dtype: bfloat16
+    max_new_tokens: 4096
+    temperature: 0.7
+    top_k: 50
+    top_p: 0.9
+    presence_penalty: 0.1
+    frequency_penalty: 0.1
+    batch_size: 1000
+    use_beam_search: true
+    stop_token_ids:
+      - 128001
+      - 128009
+  fn_completions: vllm_local_completions
+  pretty_name: FuseChat-Llama-3.1-8B-Instruct
+  prompt_template: FuseChat-Llama-3.1-8B-Instruct/prompt.txt
+  link: https://huggingface.co/FuseAI/FuseChat-Llama-3.1-8B-Instruct
diff --git a/src/alpaca_eval/models_configs/FuseChat-Llama-3.1-8B-Instruct/prompt.txt b/src/alpaca_eval/models_configs/FuseChat-Llama-3.1-8B-Instruct/prompt.txt
@@ -0,0 +1,4 @@
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+
+{instruction}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+
diff --git a/src/alpaca_eval/models_configs/FuseChat-Qwen-2.5-7B-Instruct/configs.yaml b/src/alpaca_eval/models_configs/FuseChat-Qwen-2.5-7B-Instruct/configs.yaml
@@ -0,0 +1,18 @@
+FuseChat-Qwen-2.5-7B-Instruct:
+  completions_kwargs:
+    model_name: FuseAI/FuseChat-Qwen-2.5-7B-Instruct
+    model_kwargs:
+      dtype: bfloat16
+    max_new_tokens: 4096
+    temperature: 0.7
+    top_p: 0.8
+    repetition_penalty: 1.05
+    top_k: 20
+    batch_size: 1000
+    stop_token_ids:
+      - 151645
+      - 151643
+  fn_completions: vllm_local_completions
+  pretty_name: FuseChat-Qwen-2.5-7B-Instruct
+  prompt_template: FuseChat-Qwen-2.5-7B-Instruct/prompt.txt
+  link: https://huggingface.co/FuseAI/FuseChat-Qwen-2.5-7B-Instruct
diff --git a/src/alpaca_eval/models_configs/FuseChat-Qwen-2.5-7B-Instruct/prompt.txt b/src/alpaca_eval/models_configs/FuseChat-Qwen-2.5-7B-Instruct/prompt.txt
@@ -0,0 +1,5 @@
+<|im_start|>system
+You are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>
+<|im_start|>user
+{instruction}<|im_end|>
+<|im_start|>assistant
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,4 @@
		<\|begin_of_text\|><\|start_header_id\|>user<\|end_header_id\|>

		{instruction}<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>