diff --git a/README.md b/README.md
index 22f27a5..4bec8f1 100644
--- a/README.md
+++ b/README.md
@@ -1,11 +1,15 @@
# CLiB中文大模型能力评测榜单(持续更新)
-- 目前已囊括41个大模型,覆盖chatgpt、gpt4、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax、tigerbot等商用模型,
+- 目前已囊括48个大模型,覆盖chatgpt、gpt4、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax、tigerbot等商用模型,
以及百川、belle、chatglm6b、ziya、guanaco、Phoenix、linly、MOSS、AquilaChat、vicuna、wizardLM、书生internLM、llama2-chat等开源大模型。
- 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
- 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。
- 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!
## 🔄 最近更新
+- [2023/10/11] 发布v1.9版本评测榜单
+ - 新增7个大模型:
+ - 3个商用模型:阿里通义千问v1.0.7、豆包、Baichuan2-53B
+ - 4个开源模型:Baichuan2-13B-Chat、internlm-chat-20b、qwen-14b-chat、tigerbot-70b-chat-v2
- [2023/9/13] 发布v1.8版本评测榜单
- 新增7个大模型:
- 2个商用模型:chatglm-std、chatglm-pro
@@ -53,44 +57,51 @@
| 商用 | gpt4 | 95.8 | 1 |
| 商用 | chatgpt-3.5 | 93.8 | 2 |
| 商用 | 文心一言v2.2 | 88.3 | 3 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 85.6 | 4 |
-| 商用 | 商汤senseChat | 83.2 | 5 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 80.0 | 6 |
-| 开源 | xverse-13b-chat | 79.8 | 7 |
-| 开源 | belle-llama-13b-2m | 79.2 | 8 |
-| 开源 | openbuddy-llama-30b-v7.1 | 79.1 | 9 |
-| 商用 | Baichuan-53B | 79 | 10 |
-| 商用 | 讯飞星火v1.5 | 77.7 | 11 |
-| 开源 | openbuddy-llama-65b-v8 | 77.1 | 12 |
-| 商用 | 360智脑 | 77.0 | 13 |
-| 商用 | chatglm-std | 77.0 | 14 |
-| 商用 | chatglm-130b-v1 | 76.9 | 15 |
-| 商用 | chatglm-pro | 76.7 | 16 |
-| 开源 | tulu-30b | 75.8 | 17 |
-| 商用 | 讯飞星火v2.0 | 75.4 | 18 |
-| 开源 | Llama-2-70b-chat | 75.1 | 19 |
-| 开源 | Baichuan-13B-Chat-v2 | 74.6 | 20 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 73.7 | 21 |
-| 开源 | belle-llama-13b-ext | 71.9 | 22 |
-| 开源 | phoenix-inst-chat-7b | 71.8 | 23 |
-| 开源 | BELLE-on-Open-Datasets | 70.9 | 24 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 70.8 | 25 |
-| 开源 | belle-llama-7b-2m | 70.4 | 26 |
-| 开源 | Ziya-LLaMA-13B-v1 | 70.2 | 27 |
-| 开源 | vicuna-33b | 70.1 | 28 |
-| 开源 | chatglm2-6b | 70.0 | 29 |
-| 开源 | linly-chatflow-13b | 69.9 | 30 |
-| 开源 | Baichuan-13B-Chat | 68.7 | 31 |
-| 商用 | tigerbot-7b | 68.2 | 32 |
-| 商用 | minimax | 67.4 | 33 |
-| 商用 | new-bing(8月) | 67.3 | 34 |
-| 开源 | chatglm-6b | 66.1 | 35 |
-| 开源 | wizardlm-13b | 64.0 | 36 |
-| 开源 | InternLM-Chat-7B | 61.0 | 37 |
-| 开源 | AquilaChat-7B | 59.0 | 38 |
-| 开源 | MOSS-003-SFT | 58.8 | 39 |
-| 开源 | guanaco-7b | 49.9 | 40 |
-| 商用 | 阿里通义千问 | 49.4 | 41 |
+| 开源 | tigerbot-70b-chat-v2 | 87.0 | 4 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 85.6 | 5 |
+| 商用 | 商汤senseChat | 83.2 | 6 |
+| 商用 | Baichuan2-53B | 82.7 | 7 |
+| 商用 | 阿里通义千问v1.0.7 | 81.0 | 8 |
+| 开源 | Baichuan2-13B-Chat | 80.2 | 9 |
+| 开源 | qwen-14b-chat | 80.2 | 10 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 80.0 | 11 |
+| 开源 | xverse-13b-chat | 79.8 | 12 |
+| 开源 | belle-llama-13b-2m | 79.2 | 13 |
+| 开源 | openbuddy-llama-30b-v7.1 | 79.1 | 14 |
+| 商用 | Baichuan-53B | 79.0 | 15 |
+| 商用 | 豆包 | 78.7 | 16 |
+| 商用 | 讯飞星火v1.5 | 77.7 | 17 |
+| 开源 | openbuddy-llama-65b-v8 | 77.1 | 18 |
+| 商用 | 360智脑 | 77.0 | 19 |
+| 商用 | chatglm-std | 77.0 | 20 |
+| 商用 | chatglm-130b-v1 | 76.9 | 21 |
+| 商用 | chatglm-pro | 76.7 | 22 |
+| 开源 | tulu-30b | 75.8 | 23 |
+| 商用 | 讯飞星火v2.0 | 75.4 | 24 |
+| 开源 | Llama-2-70b-chat | 75.1 | 25 |
+| 开源 | Baichuan-13B-Chat-v2 | 74.6 | 26 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 73.7 | 27 |
+| 开源 | belle-llama-13b-ext | 71.9 | 28 |
+| 开源 | phoenix-inst-chat-7b | 71.8 | 29 |
+| 开源 | internlm-chat-20b | 71.8 | 30 |
+| 开源 | BELLE-on-Open-Datasets | 70.9 | 31 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 70.8 | 32 |
+| 开源 | belle-llama-7b-2m | 70.4 | 33 |
+| 开源 | Ziya-LLaMA-13B-v1 | 70.2 | 34 |
+| 开源 | vicuna-33b | 70.1 | 35 |
+| 开源 | chatglm2-6b | 70.0 | 36 |
+| 开源 | linly-chatflow-13b | 69.9 | 37 |
+| 开源 | Baichuan-13B-Chat | 68.7 | 38 |
+| 开源 | tigerbot-7b | 68.2 | 39 |
+| 商用 | minimax | 67.4 | 40 |
+| 商用 | new-bing(8月) | 67.3 | 41 |
+| 开源 | chatglm-6b | 66.1 | 42 |
+| 开源 | wizardlm-13b | 64.0 | 43 |
+| 开源 | InternLM-Chat-7B | 61.0 | 44 |
+| 开源 | AquilaChat-7B | 59.0 | 45 |
+| 开源 | MOSS-003-SFT | 58.8 | 46 |
+| 开源 | guanaco-7b | 49.9 | 47 |
+| 商用 | 阿里通义千问v1.0.0 | 49.4 | 48 |
### 2、分类能力排行榜
@@ -99,46 +110,53 @@
| 类别 | 大模型 | 分类能力 | 排名 |
|-----|----------------------------|-------|----|
| 商用 | chatgpt-3.5 | 98 | 1 |
-| 商用 | gpt4 | 94 | 2 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 3 |
-| 商用 | 文心一言v2.2 | 90 | 4 |
-| 开源 | Llama-2-70b-chat | 86 | 5 |
-| 商用 | 360智脑 | 86 | 6 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 7 |
-| 开源 | xverse-13b-chat | 86 | 8 |
-| 商用 | Baichuan-53B | 84 | 9 |
-| 商用 | chatglm-std | 84 | 10 |
-| 商用 | chatglm-pro | 84 | 11 |
-| 开源 | vicuna-33b | 82 | 12 |
-| 商用 | 商汤senseChat | 82 | 13 |
-| 开源 | phoenix-inst-chat-7b | 82 | 14 |
-| 商用 | new-bing(8月) | 82 | 15 |
-| 商用 | chatglm-130b-v1 | 82 | 16 |
-| 开源 | BELLE-on-Open-Datasets | 82 | 17 |
-| 开源 | belle-llama-13b-2m | 82 | 18 |
-| 开源 | openbuddy-llama-30b-v7.1 | 82 | 19 |
-| 开源 | Baichuan-13B-Chat-v2 | 82 | 20 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 21 |
-| 开源 | tulu-30b | 76 | 22 |
-| 开源 | belle-llama-7b-2m | 76 | 23 |
-| 商用 | 讯飞星火v1.5 | 76 | 24 |
-| 商用 | tigerbot-7b | 74 | 25 |
-| 开源 | belle-llama-13b-ext | 74 | 26 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 27 |
-| 开源 | Ziya-LLaMA-13B-v1 | 72 | 28 |
-| 开源 | linly-chatflow-13b | 72 | 29 |
-| 商用 | 讯飞星火v2.0 | 72 | 30 |
-| 开源 | chatglm2-6b | 70 | 31 |
-| 开源 | Baichuan-13B-Chat | 70 | 32 |
-| 开源 | AquilaChat-7B | 70 | 33 |
-| 开源 | wizardlm-13b | 68 | 34 |
-| 商用 | minimax | 68 | 35 |
-| 开源 | openbuddy-llama-65b-v8 | 68 | 36 |
-| 开源 | chatglm-6b | 66 | 37 |
-| 开源 | InternLM-Chat-7B | 62 | 38 |
-| 开源 | MOSS-003-SFT | 58 | 39 |
-| 开源 | guanaco-7b | 54 | 40 |
-| 商用 | 阿里通义千问 | 44 | 41 |
+| 开源 | tigerbot-70b-chat-v2 | 97 | 2 |
+| 商用 | gpt4 | 94 | 3 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 4 |
+| 商用 | 文心一言v2.2 | 90 | 5 |
+| 开源 | Llama-2-70b-chat | 86 | 6 |
+| 商用 | 360智脑 | 86 | 7 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 8 |
+| 开源 | xverse-13b-chat | 86 | 9 |
+| 商用 | Baichuan-53B | 84 | 10 |
+| 商用 | chatglm-std | 84 | 11 |
+| 商用 | chatglm-pro | 84 | 12 |
+| 开源 | qwen-14b-chat | 84 | 13 |
+| 开源 | Baichuan2-13B-Chat | 83 | 14 |
+| 开源 | vicuna-33b | 82 | 15 |
+| 商用 | 商汤senseChat | 82 | 16 |
+| 开源 | phoenix-inst-chat-7b | 82 | 17 |
+| 商用 | new-bing(8月) | 82 | 18 |
+| 商用 | chatglm-130b-v1 | 82 | 19 |
+| 开源 | BELLE-on-Open-Datasets | 82 | 20 |
+| 开源 | belle-llama-13b-2m | 82 | 21 |
+| 开源 | openbuddy-llama-30b-v7.1 | 82 | 22 |
+| 开源 | Baichuan-13B-Chat-v2 | 82 | 23 |
+| 商用 | 阿里通义千问v1.0.7 | 81 | 24 |
+| 商用 | 豆包 | 79 | 25 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 26 |
+| 开源 | tulu-30b | 76 | 27 |
+| 开源 | belle-llama-7b-2m | 76 | 28 |
+| 商用 | 讯飞星火v1.5 | 76 | 29 |
+| 商用 | Baichuan2-53B | 76 | 30 |
+| 开源 | tigerbot-7b | 74 | 31 |
+| 开源 | belle-llama-13b-ext | 74 | 32 |
+| 开源 | internlm-chat-20b | 74 | 33 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 34 |
+| 开源 | Ziya-LLaMA-13B-v1 | 72 | 35 |
+| 开源 | linly-chatflow-13b | 72 | 36 |
+| 商用 | 讯飞星火v2.0 | 72 | 37 |
+| 开源 | chatglm2-6b | 70 | 38 |
+| 开源 | Baichuan-13B-Chat | 70 | 39 |
+| 开源 | AquilaChat-7B | 70 | 40 |
+| 开源 | wizardlm-13b | 68 | 41 |
+| 商用 | minimax | 68 | 42 |
+| 开源 | openbuddy-llama-65b-v8 | 68 | 43 |
+| 开源 | chatglm-6b | 66 | 44 |
+| 开源 | InternLM-Chat-7B | 62 | 45 |
+| 开源 | MOSS-003-SFT | 58 | 46 |
+| 开源 | guanaco-7b | 54 | 47 |
+| 商用 | 阿里通义千问v1.0.0 | 44 | 48 |
### 3、信息抽取能力排行榜
@@ -152,41 +170,48 @@
| 商用 | 商汤senseChat | 85 | 4 |
| 开源 | openbuddy-llama-65b-v8 | 84 | 5 |
| 开源 | openbuddy-llama2-70b-v10.1 | 84 | 6 |
-| 商用 | 讯飞星火v1.5 | 81 | 7 |
-| 开源 | tulu-30b | 76 | 8 |
-| 商用 | chatglm-130b-v1 | 76 | 9 |
-| 开源 | belle-llama-13b-2m | 75 | 10 |
-| 商用 | 讯飞星火v2.0 | 75 | 11 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 12 |
-| 开源 | openbuddy-llama-30b-v7.1 | 74 | 13 |
-| 开源 | xverse-13b-chat | 72 | 14 |
-| 商用 | 360智脑 | 71 | 15 |
-| 商用 | Baichuan-53B | 71 | 16 |
-| 商用 | chatglm-std | 71 | 17 |
-| 商用 | chatglm-pro | 70 | 18 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 19 |
-| 开源 | chatglm-6b | 69 | 20 |
-| 开源 | Baichuan-13B-Chat-v2 | 69 | 21 |
-| 商用 | tigerbot-7b | 68 | 22 |
-| 开源 | chatglm2-6b | 68 | 23 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 24 |
-| 开源 | Llama-2-70b-chat | 66 | 25 |
-| 开源 | vicuna-33b | 65 | 26 |
-| 开源 | belle-llama-13b-ext | 65 | 27 |
-| 开源 | belle-llama-7b-2m | 64 | 28 |
-| 开源 | Baichuan-13B-Chat | 64 | 29 |
-| 开源 | linly-chatflow-13b | 63 | 30 |
-| 开源 | Ziya-LLaMA-13B-v1 | 62 | 31 |
-| 开源 | phoenix-inst-chat-7b | 62 | 32 |
-| 开源 | BELLE-on-Open-Datasets | 62 | 33 |
-| 商用 | minimax | 61 | 34 |
-| 开源 | InternLM-Chat-7B | 55 | 35 |
-| 开源 | wizardlm-13b | 52 | 36 |
-| 开源 | AquilaChat-7B | 51 | 37 |
-| 开源 | MOSS-003-SFT | 47 | 38 |
-| 商用 | 阿里通义千问 | 47 | 39 |
-| 开源 | guanaco-7b | 45 | 40 |
-| 商用 | new-bing(8月) | 44 | 41 |
+| 商用 | Baichuan2-53B | 84 | 7 |
+| 开源 | tigerbot-70b-chat-v2 | 84 | 8 |
+| 开源 | Baichuan2-13B-Chat | 83 | 9 |
+| 商用 | 讯飞星火v1.5 | 81 | 10 |
+| 商用 | 阿里通义千问v1.0.7 | 81 | 11 |
+| 商用 | 豆包 | 77 | 12 |
+| 开源 | tulu-30b | 76 | 13 |
+| 商用 | chatglm-130b-v1 | 76 | 14 |
+| 开源 | belle-llama-13b-2m | 75 | 15 |
+| 商用 | 讯飞星火v2.0 | 75 | 16 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 17 |
+| 开源 | openbuddy-llama-30b-v7.1 | 74 | 18 |
+| 开源 | xverse-13b-chat | 72 | 19 |
+| 开源 | qwen-14b-chat | 72 | 20 |
+| 商用 | 360智脑 | 71 | 21 |
+| 商用 | Baichuan-53B | 71 | 22 |
+| 商用 | chatglm-std | 71 | 23 |
+| 商用 | chatglm-pro | 70 | 24 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 25 |
+| 开源 | chatglm-6b | 69 | 26 |
+| 开源 | Baichuan-13B-Chat-v2 | 69 | 27 |
+| 开源 | tigerbot-7b | 68 | 28 |
+| 开源 | chatglm2-6b | 68 | 29 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 30 |
+| 开源 | Llama-2-70b-chat | 66 | 31 |
+| 开源 | vicuna-33b | 65 | 32 |
+| 开源 | belle-llama-13b-ext | 65 | 33 |
+| 开源 | belle-llama-7b-2m | 64 | 34 |
+| 开源 | Baichuan-13B-Chat | 64 | 35 |
+| 开源 | internlm-chat-20b | 64 | 36 |
+| 开源 | linly-chatflow-13b | 63 | 37 |
+| 开源 | Ziya-LLaMA-13B-v1 | 62 | 38 |
+| 开源 | phoenix-inst-chat-7b | 62 | 39 |
+| 开源 | BELLE-on-Open-Datasets | 62 | 40 |
+| 商用 | minimax | 61 | 41 |
+| 开源 | InternLM-Chat-7B | 55 | 42 |
+| 开源 | wizardlm-13b | 52 | 43 |
+| 开源 | AquilaChat-7B | 51 | 44 |
+| 开源 | MOSS-003-SFT | 47 | 45 |
+| 商用 | 阿里通义千问v1.0.0 | 47 | 46 |
+| 开源 | guanaco-7b | 45 | 47 |
+| 商用 | new-bing(8月) | 44 | 48 |
### 4、阅读理解能力排行榜
@@ -199,44 +224,51 @@
| 商用 | gpt4 | 99.3 | 1 |
| 商用 | chatgpt-3.5 | 95.3 | 2 |
| 商用 | 文心一言v2.2 | 88.0 | 3 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 86.7 | 4 |
-| 商用 | 商汤senseChat | 82.7 | 5 |
-| 商用 | Baichuan-53B | 82.0 | 6 |
-| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 7 |
-| 开源 | xverse-13b-chat | 81.3 | 8 |
-| 开源 | belle-llama-13b-2m | 80.7 | 9 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 10 |
-| 商用 | 讯飞星火v2.0 | 79.3 | 11 |
-| 开源 | openbuddy-llama-65b-v8 | 79.3 | 12 |
-| 开源 | Ziya-LLaMA-13B-v1 | 76.7 | 13 |
-| 开源 | belle-llama-13b-ext | 76.7 | 14 |
-| 商用 | new-bing(8月) | 76.0 | 15 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 16 |
-| 商用 | 讯飞星火v1.5 | 76.0 | 17 |
-| 商用 | chatglm-std | 76.0 | 18 |
-| 商用 | chatglm-pro | 76.0 | 19 |
-| 开源 | tulu-30b | 75.3 | 20 |
-| 开源 | linly-chatflow-13b | 74.7 | 21 |
-| 商用 | 360智脑 | 74.0 | 22 |
-| 商用 | minimax | 73.3 | 23 |
-| 开源 | Llama-2-70b-chat | 73.3 | 24 |
-| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 25 |
-| 商用 | chatglm-130b-v1 | 72.7 | 26 |
-| 开源 | wizardlm-13b | 72.0 | 27 |
-| 开源 | chatglm2-6b | 72.0 | 28 |
-| 开源 | Baichuan-13B-Chat | 72.0 | 29 |
-| 开源 | belle-llama-7b-2m | 71.3 | 30 |
-| 开源 | phoenix-inst-chat-7b | 71.3 | 31 |
-| 开源 | MOSS-003-SFT | 71.3 | 32 |
-| 开源 | BELLE-on-Open-Datasets | 68.7 | 33 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 34 |
-| 开源 | InternLM-Chat-7B | 66.0 | 35 |
-| 开源 | chatglm-6b | 63.3 | 36 |
-| 开源 | vicuna-33b | 63.3 | 37 |
-| 商用 | tigerbot-7b | 62.7 | 38 |
-| 商用 | 阿里通义千问 | 57.3 | 39 |
-| 开源 | AquilaChat-7B | 56.0 | 40 |
-| 开源 | guanaco-7b | 50.7 | 41 |
+| 商用 | Baichuan2-53B | 88.0 | 4 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 86.7 | 5 |
+| 开源 | qwen-14b-chat | 84.7 | 6 |
+| 商用 | 商汤senseChat | 82.7 | 7 |
+| 商用 | Baichuan-53B | 82.0 | 8 |
+| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 9 |
+| 开源 | xverse-13b-chat | 81.3 | 10 |
+| 商用 | 阿里通义千问v1.0.7 | 81.0 | 11 |
+| 开源 | belle-llama-13b-2m | 80.7 | 12 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 13 |
+| 商用 | 豆包 | 80.0 | 14 |
+| 开源 | tigerbot-70b-chat-v2 | 80.0 | 15 |
+| 商用 | 讯飞星火v2.0 | 79.3 | 16 |
+| 开源 | openbuddy-llama-65b-v8 | 79.3 | 17 |
+| 开源 | internlm-chat-20b | 77.3 | 18 |
+| 开源 | Ziya-LLaMA-13B-v1 | 76.7 | 19 |
+| 开源 | belle-llama-13b-ext | 76.7 | 20 |
+| 商用 | new-bing(8月) | 76.0 | 21 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 22 |
+| 商用 | 讯飞星火v1.5 | 76.0 | 23 |
+| 商用 | chatglm-std | 76.0 | 24 |
+| 商用 | chatglm-pro | 76.0 | 25 |
+| 开源 | tulu-30b | 75.3 | 26 |
+| 开源 | linly-chatflow-13b | 74.7 | 27 |
+| 开源 | Baichuan2-13B-Chat | 74.7 | 28 |
+| 商用 | 360智脑 | 74.0 | 29 |
+| 商用 | minimax | 73.3 | 30 |
+| 开源 | Llama-2-70b-chat | 73.3 | 31 |
+| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 32 |
+| 商用 | chatglm-130b-v1 | 72.7 | 33 |
+| 开源 | wizardlm-13b | 72.0 | 34 |
+| 开源 | chatglm2-6b | 72.0 | 35 |
+| 开源 | Baichuan-13B-Chat | 72.0 | 36 |
+| 开源 | belle-llama-7b-2m | 71.3 | 37 |
+| 开源 | phoenix-inst-chat-7b | 71.3 | 38 |
+| 开源 | MOSS-003-SFT | 71.3 | 39 |
+| 开源 | BELLE-on-Open-Datasets | 68.7 | 40 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 41 |
+| 开源 | InternLM-Chat-7B | 66.0 | 42 |
+| 开源 | chatglm-6b | 63.3 | 43 |
+| 开源 | vicuna-33b | 63.3 | 44 |
+| 开源 | tigerbot-7b | 62.7 | 45 |
+| 商用 | 阿里通义千问v1.0.0 | 57.3 | 46 |
+| 开源 | AquilaChat-7B | 56.0 | 47 |
+| 开源 | guanaco-7b | 50.7 | 48 |
### 5、 表格问答排行榜(数据分析)
@@ -248,95 +280,107 @@
|-----|----------------------------|---------|----|
| 商用 | gpt4 | 97 | 1 |
| 商用 | chatgpt-3.5 | 93 | 2 |
-| 商用 | 文心一言v2.2 | 81 | 3 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 4 |
-| 商用 | 商汤senseChat | 78 | 5 |
-| 开源 | belle-llama-13b-2m | 77 | 6 |
-| 开源 | openbuddy-llama-65b-v8 | 76 | 7 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 8 |
-| 商用 | chatglm-std | 73 | 9 |
-| 商用 | chatglm-pro | 73 | 10 |
-| 商用 | 讯飞星火v1.0 | 69 | 11 |
-| 开源 | belle-llama-13b-ext | 69 | 12 |
-| 开源 | Llama-2-70b-chat | 69 | 13 |
-| 商用 | chatglm-130b-v1 | 68 | 14 |
-| 开源 | xverse-13b-chat | 67 | 15 |
-| 开源 | Baichuan-13B-Chat-v2 | 67 | 16 |
-| 商用 | 360智脑 | 66 | 17 |
-| 开源 | Ziya-LLaMA-13B-v1 | 65 | 18 |
-| 商用 | 讯飞星火v1.5 | 65 | 19 |
-| 开源 | Baichuan-13B-Chat | 65 | 20 |
-| 商用 | minimax | 63 | 21 |
-| 开源 | tulu-30b | 61 | 22 |
-| 开源 | openbuddy-llama-30b-v7.1 | 60 | 23 |
-| 开源 | openbuddy-llama-30b-v7.1 | 60 | 24 |
-| 开源 | chatglm-6b | 59 | 25 |
-| 开源 | belle-llama-7b-2m | 59 | 26 |
-| 开源 | linly-chatflow-13b | 59 | 27 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 28 |
-| 开源 | chatglm2-6b | 57 | 29 |
-| 开源 | llama2-13b-chat | 57 | 30 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 31 |
-| 开源 | AquilaChat-7B | 55 | 32 |
-| 开源 | vicuna-33b | 54 | 33 |
-| 商用 | tigerbot-7b | 53 | 34 |
-| 开源 | InternLM-Chat-7B | 53 | 35 |
-| 开源 | BELLE-on-Open-Datasets | 48 | 36 |
-| 开源 | wizardlm-13b | 48 | 37 |
-| 商用 | 阿里通义千问 | 39 | 38 |
-| 开源 | MOSS-003-SFT | 36 | 39 |
+| 开源 | tigerbot-70b-chat-v2 | 85 | 3 |
+| 商用 | 豆包 | 82 | 4 |
+| 商用 | 文心一言v2.2 | 81 | 5 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 6 |
+| 商用 | Baichuan2-53B | 79 | 7 |
+| 商用 | 商汤senseChat | 78 | 8 |
+| 开源 | belle-llama-13b-2m | 77 | 9 |
+| 开源 | Baichuan2-13B-Chat | 77 | 10 |
+| 开源 | qwen-14b-chat | 77 | 11 |
+| 开源 | openbuddy-llama-65b-v8 | 76 | 12 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 13 |
+| 商用 | chatglm-std | 73 | 14 |
+| 商用 | chatglm-pro | 73 | 15 |
+| 商用 | 阿里通义千问v1.0.7 | 73 | 16 |
+| 商用 | 讯飞星火v1.0 | 69 | 17 |
+| 开源 | belle-llama-13b-ext | 69 | 18 |
+| 开源 | Llama-2-70b-chat | 69 | 19 |
+| 商用 | chatglm-130b-v1 | 68 | 20 |
+| 开源 | xverse-13b-chat | 67 | 21 |
+| 开源 | Baichuan-13B-Chat-v2 | 67 | 22 |
+| 商用 | 360智脑 | 66 | 23 |
+| 开源 | Ziya-LLaMA-13B-v1 | 65 | 24 |
+| 商用 | 讯飞星火v1.5 | 65 | 25 |
+| 开源 | Baichuan-13B-Chat | 65 | 26 |
+| 开源 | internlm-chat-20b | 64 | 27 |
+| 商用 | minimax | 63 | 28 |
+| 开源 | tulu-30b | 61 | 29 |
+| 开源 | openbuddy-llama-30b-v7.1 | 60 | 30 |
+| 开源 | chatglm-6b | 59 | 31 |
+| 开源 | belle-llama-7b-2m | 59 | 32 |
+| 开源 | linly-chatflow-13b | 59 | 33 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 34 |
+| 开源 | chatglm2-6b | 57 | 35 |
+| 开源 | llama2-13b-chat | 57 | 36 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 37 |
+| 开源 | AquilaChat-7B | 55 | 38 |
+| 开源 | vicuna-33b | 54 | 39 |
+| 商用 | tigerbot-7b | 53 | 40 |
+| 开源 | InternLM-Chat-7B | 53 | 41 |
+| 开源 | BELLE-on-Open-Datasets | 48 | 42 |
+| 开源 | wizardlm-13b | 48 | 43 |
+| 商用 | 阿里通义千问v1.0.0 | 39 | 44 |
+| 开源 | MOSS-003-SFT | 36 | 45 |
## 🌐 各项能力评分
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。
每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
-| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 综合能力 |
-|-------|----------------------------|------|--------|--------|-------|
-| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93.8 |
-| 商用 | gpt4 | 94 | 94 | 99.3 | 95.8 |
-| 商用 | 文心一言old | 48 | 71 | 62.7 | 60.3 |
-| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 88.3 |
-| 商用 | chatglm官方 | 82 | 76 | 72.7 | 76.9 |
-| 商用 | 讯飞星火old | 70 | 79 | 80.7 | 76.6 |
-| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 77.7 |
-| 商用 | 360智脑 | 86 | 71 | 74.0 | 77.0 |
-| 商用 | 阿里通义千问 | 44 | 47 | 57.3 | 49.4 |
-| 商用 | minimax | 68 | 61 | 73.3 | 67.4 |
-| 开源 | chatglm-6b | 66 | 69 | 63.3 | 66.1 |
-| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 70.4 |
-| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 70.9 |
-| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 79.2 |
-| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 71.9 |
-| 开源 | Ziya-LLaMA-13B-v1 | 72 | 62 | 76.7 | 70.2 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 73.7 |
-| 开源 | guanaco-7b | 54 | 45 | 50.7 | 49.9 |
-| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | 71.8 |
-| 商用/开源 | tigerbot-7b官网 | 74 | 68 | 62.7 | 68.2 |
-| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 69.9 |
-| 开源 | MOSS-003-SFT | 58 | 47 | 71.3 | 58.8 |
-| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 59.0 |
-| 开源 | tulu-30b | 76 | 76 | 75.3 | 75.8 |
-| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 70.0 |
-| 开源 | Baichuan-13B-Chat | 70 | 64 | 72.0 | 68.7 |
-| 开源 | vicuna-33b | 82 | 65 | 63.3 | 70.1 |
-| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 64.0 |
-| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 61.0 |
-| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 75.1 |
-| 商用 | senseChat | 82 | 85 | 82.7 | 83.2 |
-| 商用 | new-bing(8月) | 82 | 44 | 76.0 | 67.3 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 80.0 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 70.8 |
-| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 75.4 |
-| 商用 | Baichuan-53B(8月) | 84 | 71 | 82.0 | 79.0 |
-| 商用 | chatglm-std | 84 | 71 | 76.0 | 77.0|
-| 商用 | chatglm-pro | 84 | 70 | 76.0 | 76.7|
-| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 79.1|
-| 开源 | openbuddy-llama-65b-v8 | 68 | 84| 79.3 | 77.1|
-| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84| 86.7| 85.6|
-| 开源 | xverse-13b-chat | 86 | 72| 81.3| 79.8|
-| 开源 | Baichuan-13B-Chat-v2| 82 | 69 | 72.7 | 74.6|
-
+| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 综合能力 |
+|-------|-----------------------------|------|--------|--------|-------|
+| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93.8 |
+| 商用 | gpt4 | 94 | 94 | 99.3 | 95.8 |
+| 商用 | 文心一言old | 48 | 71 | 62.7 | 60.3 |
+| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 88.3 |
+| 商用 | chatglm官方 | 82 | 76 | 72.7 | 76.9 |
+| 商用 | 讯飞星火old | 70 | 79 | 80.7 | 76.6 |
+| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 77.7 |
+| 商用 | 360智脑 | 86 | 71 | 74.0 | 77.0 |
+| 商用 | 阿里通义千问 | 44 | 47 | 57.3 | 49.4 |
+| 商用 | minimax | 68 | 61 | 73.3 | 67.4 |
+| 开源 | chatglm-6b | 66 | 69 | 63.3 | 66.1 |
+| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 70.4 |
+| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 70.9 |
+| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 79.2 |
+| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 71.9 |
+| 开源 | Ziya-LLaMA-13B-v1 | 72 | 62 | 76.7 | 70.2 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 73.7 |
+| 开源 | guanaco-7b | 54 | 45 | 50.7 | 49.9 |
+| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | 71.8 |
+| 商用/开源 | tigerbot-7b官网 | 74 | 68 | 62.7 | 68.2 |
+| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 69.9 |
+| 开源 | MOSS-003-SFT | 58 | 47 | 71.3 | 58.8 |
+| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 59.0 |
+| 开源 | tulu-30b | 76 | 76 | 75.3 | 75.8 |
+| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 70.0 |
+| 开源 | Baichuan-13B-Chat | 70 | 64 | 72.0 | 68.7 |
+| 开源 | vicuna-33b | 82 | 65 | 63.3 | 70.1 |
+| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 64.0 |
+| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 61.0 |
+| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 75.1 |
+| 商用 | senseChat | 82 | 85 | 82.7 | 83.2 |
+| 商用 | new-bing(8月) | 82 | 44 | 76.0 | 67.3 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 80.0 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 70.8 |
+| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 75.4 |
+| 商用 | Baichuan-53B(8月) | 84 | 71 | 82.0 | 79.0 |
+| 商用 | chatglm-std | 84 | 71 | 76.0 | 77.0 |
+| 商用 | chatglm-pro | 84 | 70 | 76.0 | 76.7 |
+| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 79.1 |
+| 开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 77.1 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 85.6 |
+| 开源 | xverse-13b-chat | 86 | 72 | 81.3 | 79.8 |
+| 开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 74.6 |
+| 商用 | 阿里通义千问v1.0.7 | 81 | 81 | 81.0 | 81.0 |
+| 商用 | 豆包 | 79 | 77 | 80.0 | 78.7 |
+| 商用 | Baichuan2-53B | 76 | 84 | 88.0 | 82.7 |
+| 开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 80.2 |
+| 开源 | internlm-chat-20b | 74 | 64 | 77.3 | 71.8 |
+| 开源 | qwen-14b-chat | 84 | 72 | 84.7 | 80.2 |
+| 开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 87.0 |
## ⚖️原始评测数据
diff --git a/pic/classification.png b/pic/classification.png
index 3ba1f68..9ec80a7 100644
Binary files a/pic/classification.png and b/pic/classification.png differ
diff --git a/pic/extract.png b/pic/extract.png
index 7d493a4..5055834 100644
Binary files a/pic/extract.png and b/pic/extract.png differ
diff --git a/pic/mrc.png b/pic/mrc.png
index f673225..a69dcd8 100644
Binary files a/pic/mrc.png and b/pic/mrc.png differ
diff --git a/pic/tableQA.png b/pic/tableQA.png
index 41959f4..438b1b5 100644
Binary files a/pic/tableQA.png and b/pic/tableQA.png differ
diff --git a/pic/total.png b/pic/total.png
index 00eb999..79edbad 100644
Binary files a/pic/total.png and b/pic/total.png differ