diff --git a/README.md b/README.md
index ab508aa..73c9c8a 100644
--- a/README.md
+++ b/README.md
@@ -5,7 +5,25 @@
- 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。
- 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!
-## 🔄 最近更新
+## 目录
+- [🔄最近更新](#最近更新)
+- [⚓TODO](#todo)
+- [📝大模型基本信息](#大模型基本信息)
+- [📊排行榜](#-排行榜)
+ - [综合能力排行榜](#1综合能力排行榜)
+ - [分类能力排行榜](#2分类能力排行榜)
+ - [信息抽取能力排行榜](#3信息抽取能力排行榜)
+ - [阅读理解能力排行榜](#4阅读理解能力排行榜)
+ - [数据分析排行榜](#5数据分析排行榜)
+- [🌐各项能力评分](#各项能力评分)
+- [⚖️原始评测数据](#原始评测数据)
+- [为什么做榜单?](#为什么做榜单)
+
+
+## 最近更新
+- [2023/11/22] 发布v1.11版本评测榜单
+ - 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3
+ - 将数据分析能力计入综合得分
- [2023/11/5] 发布v1.10版本评测榜单
- 新增6个大模型:
- 3个商用模型:文心4.0、谷歌bard、讯飞星火v3
@@ -41,7 +59,7 @@
- 新增表格问答评测维度,作为阅读理解能力的细分项
- [2023/6/4] 发布v1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.0)
-## ⚓TODO
+## TODO
- 将更多大模型加入评测:Claude、falcon等等
- 增加开源大模型的授权协议,注明能否商用
- 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译……
@@ -49,65 +67,67 @@
- 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域)
- 加入更多评测数据,使得评测得分越来越有说服力
-## 📝大模型基本信息
+## 大模型基本信息
详见 [中文大模型资源汇总(商用及开源)](https://github.com/jeinlee1991/chinese-llm-benchmark/blob/main/LLM-info.md)
## 📊 排行榜
### 1、综合能力排行榜
-综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。
+综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。
![lin](pic/total.png)
| 类别 | 大模型 | 总分 | 排名 |
|-----|----------------------------|------|----|
-| 商用 | gpt4 | 95.8 | 1 |
-| 商用 | chatgpt-3.5 | 93.8 | 2 |
-| 商用 | 文心一言v2.2 | 88.3 | 3 |
-| 开源 | tigerbot-70b-chat-v2 | 87.0 | 4 |
-| 商用 | 谷歌bard | 86.4 | 5 |
-| 商用 | 讯飞星火v3 | 85.7 | 6 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 85.6 | 7 |
-| 商用 | 文心4.0 | 85.0 | 8 |
-| 商用 | 商汤senseChat | 83.2 | 9 |
-| 商用 | Baichuan2-53B | 82.7 | 10 |
-| 开源 | aquilachat2-34b | 82.3 | 11 |
-| 商用 | 阿里通义千问v1.0.7 | 81.0 | 12 |
-| 开源 | Baichuan2-13B-Chat | 80.2 | 13 |
-| 开源 | qwen-14b-chat | 80.2 | 14 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 80.0 | 15 |
-| 开源 | xverse-13b-chat | 79.8 | 16 |
-| 开源 | belle-llama-13b-2m | 79.2 | 17 |
-| 开源 | openbuddy-llama-30b-v7.1 | 79.1 | 18 |
-| 商用 | Baichuan-53B | 79.0 | 19 |
-| 商用 | 豆包 | 78.7 | 20 |
-| 商用 | 讯飞星火v1.5 | 77.7 | 21 |
-| 开源 | openbuddy-llama-65b-v8 | 77.1 | 22 |
-| 商用 | 360智脑 | 77.0 | 23 |
-| 商用 | chatglm-std | 77.0 | 24 |
-| 商用 | chatglm-130b-v1 | 76.9 | 25 |
-| 商用 | chatglm-pro | 76.7 | 26 |
-| 开源 | chatglm3-6b | 76.2 | 27 |
-| 开源 | tulu-30b | 75.8 | 28 |
-| 商用 | 讯飞星火v2.0 | 75.4 | 29 |
-| 开源 | Llama-2-70b-chat | 75.1 | 30 |
-| 开源 | Baichuan-13B-Chat-v2 | 74.6 | 31 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 73.7 | 32 |
-| 开源 | belle-llama-13b-ext | 71.9 | 33 |
-| 开源 | phoenix-inst-chat-7b | 71.8 | 34 |
-| 开源 | internlm-chat-20b | 71.8 | 35 |
-| 开源 | BELLE-on-Open-Datasets | 70.9 | 36 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 70.8 | 37 |
-| 开源 | belle-llama-7b-2m | 70.4 | 38 |
-| 开源 | vicuna-33b | 70.1 | 39 |
-| 开源 | chatglm2-6b | 70.0 | 40 |
-| 开源 | linly-chatflow-13b | 69.9 | 41 |
-| 商用 | minimax | 67.4 | 42 |
-| 商用 | new-bing(8月) | 67.3 | 43 |
-| 开源 | ziya2-13b-chat | 67.1 | 44 |
-| 开源 | wizardlm-13b | 64.0 | 45 |
-| 开源 | InternLM-Chat-7B | 61.0 | 46 |
-| 开源 | AquilaChat-7B | 59.0 | 47 |
-
+| 商用 | gpt4 | 96.1 | 1 |
+| 商用 | chatgpt-3.5 | 93.6 | 2 |
+| 开源 | tigerbot-70b-chat-v2 | 86.5 | 3 |
+| 商用 | 文心一言v2.2 | 86.5 | 4 |
+| 商用 | 讯飞星火v3 | 85.8 | 5 |
+| 商用 | 谷歌bard | 84.1 | 6 |
+| 开源 | tigerbot-70b-chat-v3 | 83.5 | 7 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 83.2 | 8 |
+| 开源 | aquilachat2-34b | 82.5 | 9 |
+| 商用 | 商汤senseChat | 81.9 | 10 |
+| 商用 | 文心4.0 | 81.8 | 11 |
+| 商用 | Baichuan2-53B | 81.8 | 12 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 79.8 | 13 |
+| 商用 | 豆包 | 79.5 | 14 |
+| 开源 | qwen-14b-chat | 79.4 | 15 |
+| 开源 | Baichuan2-13B-Chat | 79.4 | 16 |
+| 开源 | Baichuan2-7B-Chat | 79.1 | 17 |
+| 商用 | 阿里通义千问 | 79.0 | 18 |
+| 开源 | belle-llama-13b-2m | 78.7 | 19 |
+| 开源 | openbuddy-llama-65b-v8 | 76.8 | 20 |
+| 开源 | xverse-13b-chat | 76.6 | 21 |
+| 商用 | chatglm-std | 76.0 | 22 |
+| 商用 | chatglm-pro | 75.8 | 23 |
+| 商用 | 讯飞星火v1.5 | 75.5 | 24 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 75.1 | 25 |
+| 商用 | chatglm-130b-v1 | 74.7 | 26 |
+| 开源 | openbuddy-llama-30b-v7.1 | 74.3 | 27 |
+| 商用 | 360智脑 | 74.3 | 28 |
+| 开源 | Llama-2-70b-chat | 73.6 | 29 |
+| 开源 | Qwen-7B-Chat | 73.5 | 30 |
+| 商用 | 讯飞星火v2.0 | 72.8 | 31 |
+| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 32 |
+| 开源 | chatglm3-6b | 72.2 | 33 |
+| 开源 | tulu-30b | 72.1 | 34 |
+| 开源 | belle-llama-13b-ext | 71.2 | 35 |
+| 开源 | internlm-chat-20b | 69.8 | 36 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 69.8 | 37 |
+| 开源 | belle-llama-7b-2m | 67.6 | 38 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 39 |
+| 开源 | ziya2-13b-chat | 67.3 | 40 |
+| 开源 | linly-chatflow-13b | 67.2 | 41 |
+| 开源 | chatglm2-6b | 66.8 | 42 |
+| 商用 | minimax | 66.3 | 43 |
+| 开源 | vicuna-33b | 66.1 | 44 |
+| 开源 | BELLE-on-Open-Datasets | 65.2 | 45 |
+| 开源 | wizardlm-13b | 60.0 | 46 |
+| 开源 | InternLM-Chat-7B | 59.0 | 47 |
+| 开源 | AquilaChat-7B | 58.0 | 48 |
+
+
### 2、分类能力排行榜
![lin](pic/classification.png)
@@ -116,50 +136,53 @@
| 商用 | chatgpt-3.5 | 98 | 1 |
| 开源 | tigerbot-70b-chat-v2 | 97 | 2 |
| 商用 | gpt4 | 94 | 3 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 4 |
+| 开源 | tigerbot-70b-chat-v3 | 94 | 4 |
| 商用 | 文心一言v2.2 | 90 | 5 |
-| 商用 | 文心4.0 | 88 | 6 |
-| 商用 | 讯飞星火v3 | 87 | 7 |
-| 开源 | Llama-2-70b-chat | 86 | 8 |
-| 商用 | 360智脑 | 86 | 9 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 10 |
-| 开源 | xverse-13b-chat | 86 | 11 |
-| 商用 | 谷歌bard | 86 | 12 |
-| 商用 | Baichuan-53B | 84 | 13 |
-| 商用 | chatglm-std | 84 | 14 |
-| 商用 | chatglm-pro | 84 | 15 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 6 |
+| 开源 | Qwen-7B-Chat | 89 | 7 |
+| 商用 | 文心4.0 | 88 | 8 |
+| 开源 | Baichuan2-7B-Chat | 88 | 9 |
+| 商用 | 讯飞星火v3 | 87 | 10 |
+| 商用 | 谷歌bard | 86 | 11 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 12 |
+| 开源 | xverse-13b-chat | 86 | 13 |
+| 商用 | 360智脑 | 86 | 14 |
+| 开源 | Llama-2-70b-chat | 86 | 15 |
| 开源 | qwen-14b-chat | 84 | 16 |
-| 开源 | Baichuan2-13B-Chat | 83 | 17 |
-| 开源 | vicuna-33b | 82 | 18 |
-| 商用 | 商汤senseChat | 82 | 19 |
-| 开源 | phoenix-inst-chat-7b | 82 | 20 |
-| 商用 | new-bing(8月) | 82 | 21 |
+| 商用 | chatglm-std | 84 | 17 |
+| 商用 | chatglm-pro | 84 | 18 |
+| 开源 | Baichuan2-13B-Chat | 83 | 19 |
+| 商用 | 商汤senseChat | 82 | 20 |
+| 开源 | belle-llama-13b-2m | 82 | 21 |
| 商用 | chatglm-130b-v1 | 82 | 22 |
-| 开源 | BELLE-on-Open-Datasets | 82 | 23 |
-| 开源 | belle-llama-13b-2m | 82 | 24 |
-| 开源 | openbuddy-llama-30b-v7.1 | 82 | 25 |
-| 开源 | Baichuan-13B-Chat-v2 | 82 | 26 |
-| 开源 | chatglm3-6b | 82 | 27 |
-| 商用 | 阿里通义千问v1.0.7 | 81 | 28 |
-| 商用 | 豆包 | 79 | 29 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 30 |
-| 开源 | aquilachat2-34b | 77 | 31 |
-| 开源 | tulu-30b | 76 | 32 |
-| 开源 | belle-llama-7b-2m | 76 | 33 |
-| 商用 | 讯飞星火v1.5 | 76 | 34 |
+| 开源 | openbuddy-llama-30b-v7.1 | 82 | 23 |
+| 开源 | Baichuan-13B-Chat-v2 | 82 | 24 |
+| 开源 | chatglm3-6b | 82 | 25 |
+| 开源 | vicuna-33b | 82 | 26 |
+| 开源 | BELLE-on-Open-Datasets | 82 | 27 |
+| 开源 | phoenix-inst-chat-7b | 82 | 28 |
+| 商用 | 微软new-bing | 82 | 29 |
+| 商用 | 阿里通义千问 | 81 | 30 |
+| 商用 | 豆包 | 79 | 31 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 79 | 32 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 33 |
+| 开源 | aquilachat2-34b | 77 | 34 |
| 商用 | Baichuan2-53B | 76 | 35 |
-| 开源 | ziya2-13b-chat | 76 | 36 |
-| 开源 | belle-llama-13b-ext | 74 | 37 |
-| 开源 | internlm-chat-20b | 74 | 38 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 39 |
-| 开源 | linly-chatflow-13b | 72 | 40 |
-| 商用 | 讯飞星火v2.0 | 72 | 41 |
-| 开源 | chatglm2-6b | 70 | 42 |
-| 开源 | AquilaChat-7B | 70 | 43 |
-| 开源 | wizardlm-13b | 68 | 44 |
-| 商用 | minimax | 68 | 45 |
-| 开源 | openbuddy-llama-65b-v8 | 68 | 46 |
-| 开源 | InternLM-Chat-7B | 62 | 47 |
+| 商用 | 讯飞星火v1.5 | 76 | 36 |
+| 开源 | tulu-30b | 76 | 37 |
+| 开源 | belle-llama-7b-2m | 76 | 38 |
+| 开源 | ziya2-13b-chat | 76 | 39 |
+| 开源 | belle-llama-13b-ext | 74 | 40 |
+| 开源 | internlm-chat-20b | 74 | 41 |
+| 商用 | 讯飞星火v2.0 | 72 | 42 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 43 |
+| 开源 | linly-chatflow-13b | 72 | 44 |
+| 开源 | chatglm2-6b | 70 | 45 |
+| 开源 | AquilaChat-7B | 70 | 46 |
+| 开源 | openbuddy-llama-65b-v8 | 68 | 47 |
+| 商用 | minimax | 68 | 48 |
+| 开源 | wizardlm-13b | 68 | 49 |
+| 开源 | InternLM-Chat-7B | 62 | 50 |
### 3、信息抽取能力排行榜
@@ -171,49 +194,52 @@
| 商用 | chatgpt-3.5 | 88 | 2 |
| 商用 | 谷歌bard | 88 | 3 |
| 商用 | 文心一言v2.2 | 87 | 4 |
-| 商用 | 商汤senseChat | 85 | 5 |
-| 开源 | openbuddy-llama-65b-v8 | 84 | 6 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 84 | 7 |
-| 商用 | Baichuan2-53B | 84 | 8 |
-| 开源 | tigerbot-70b-chat-v2 | 84 | 9 |
-| 商用 | 文心4.0 | 84 | 10 |
-| 开源 | Baichuan2-13B-Chat | 83 | 11 |
-| 商用 | 讯飞星火v3 | 82 | 12 |
-| 开源 | aquilachat2-34b | 82 | 13 |
-| 商用 | 讯飞星火v1.5 | 81 | 14 |
-| 商用 | 阿里通义千问v1.0.7 | 81 | 15 |
-| 商用 | 豆包 | 77 | 16 |
-| 开源 | tulu-30b | 76 | 17 |
-| 商用 | chatglm-130b-v1 | 76 | 18 |
-| 开源 | belle-llama-13b-2m | 75 | 19 |
-| 商用 | 讯飞星火v2.0 | 75 | 20 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 21 |
-| 开源 | openbuddy-llama-30b-v7.1 | 74 | 22 |
-| 开源 | xverse-13b-chat | 72 | 23 |
-| 开源 | qwen-14b-chat | 72 | 24 |
-| 商用 | 360智脑 | 71 | 25 |
-| 商用 | Baichuan-53B | 71 | 26 |
-| 商用 | chatglm-std | 71 | 27 |
-| 商用 | chatglm-pro | 70 | 28 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 29 |
-| 开源 | Baichuan-13B-Chat-v2 | 69 | 30 |
-| 开源 | chatglm2-6b | 68 | 31 |
-| 开源 | chatglm3-6b | 68 | 32 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 33 |
-| 开源 | Llama-2-70b-chat | 66 | 34 |
-| 开源 | vicuna-33b | 65 | 35 |
-| 开源 | belle-llama-13b-ext | 65 | 36 |
-| 开源 | belle-llama-7b-2m | 64 | 37 |
-| 开源 | internlm-chat-20b | 64 | 38 |
-| 开源 | linly-chatflow-13b | 63 | 39 |
-| 开源 | phoenix-inst-chat-7b | 62 | 40 |
-| 开源 | BELLE-on-Open-Datasets | 62 | 41 |
-| 商用 | minimax | 61 | 42 |
-| 开源 | InternLM-Chat-7B | 55 | 43 |
-| 开源 | ziya2-13b-chat | 54 | 44 |
-| 开源 | wizardlm-13b | 52 | 45 |
-| 开源 | AquilaChat-7B | 51 | 46 |
-| 商用 | new-bing(8月) | 44 | 47 |
+| 开源 | tigerbot-70b-chat-v3 | 85 | 5 |
+| 商用 | 商汤senseChat | 85 | 6 |
+| 开源 | tigerbot-70b-chat-v2 | 84 | 7 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 84 | 8 |
+| 商用 | 文心4.0 | 84 | 9 |
+| 商用 | Baichuan2-53B | 84 | 10 |
+| 开源 | openbuddy-llama-65b-v8 | 84 | 11 |
+| 开源 | Baichuan2-13B-Chat | 83 | 12 |
+| 商用 | 讯飞星火v3 | 82 | 13 |
+| 开源 | aquilachat2-34b | 82 | 14 |
+| 商用 | 阿里通义千问 | 81 | 15 |
+| 商用 | 讯飞星火v1.5 | 81 | 16 |
+| 商用 | 豆包 | 77 | 17 |
+| 开源 | Baichuan2-7B-Chat | 76 | 18 |
+| 商用 | chatglm-130b-v1 | 76 | 19 |
+| 开源 | tulu-30b | 76 | 20 |
+| 开源 | belle-llama-13b-2m | 75 | 21 |
+| 商用 | 讯飞星火v2.0 | 75 | 22 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 23 |
+| 开源 | openbuddy-llama-30b-v7.1 | 74 | 24 |
+| 开源 | qwen-14b-chat | 72 | 25 |
+| 开源 | xverse-13b-chat | 72 | 26 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 72 | 27 |
+| 开源 | Qwen-7B-Chat | 72 | 28 |
+| 商用 | chatglm-std | 71 | 29 |
+| 商用 | 360智脑 | 71 | 30 |
+| 商用 | chatglm-pro | 70 | 31 |
+| 开源 | Baichuan-13B-Chat-v2 | 69 | 32 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 33 |
+| 开源 | chatglm3-6b | 68 | 34 |
+| 开源 | chatglm2-6b | 68 | 35 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 36 |
+| 开源 | Llama-2-70b-chat | 66 | 37 |
+| 开源 | belle-llama-13b-ext | 65 | 38 |
+| 开源 | vicuna-33b | 65 | 39 |
+| 开源 | internlm-chat-20b | 64 | 40 |
+| 开源 | belle-llama-7b-2m | 64 | 41 |
+| 开源 | linly-chatflow-13b | 63 | 42 |
+| 开源 | BELLE-on-Open-Datasets | 62 | 43 |
+| 开源 | phoenix-inst-chat-7b | 62 | 44 |
+| 商用 | minimax | 61 | 45 |
+| 开源 | InternLM-Chat-7B | 55 | 46 |
+| 开源 | ziya2-13b-chat | 54 | 47 |
+| 开源 | wizardlm-13b | 52 | 48 |
+| 开源 | AquilaChat-7B | 51 | 49 |
+| 商用 | 微软new-bing | 44 | 50 |
### 4、阅读理解能力排行榜
@@ -232,47 +258,50 @@
| 开源 | openbuddy-llama2-70b-v10.1 | 86.7 | 7 |
| 商用 | 谷歌bard | 85.3 | 8 |
| 开源 | qwen-14b-chat | 84.7 | 9 |
-| 商用 | 文心4.0 | 83.0 | 10 |
-| 商用 | 商汤senseChat | 82.7 | 11 |
-| 商用 | Baichuan-53B | 82.0 | 12 |
-| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 13 |
-| 开源 | xverse-13b-chat | 81.3 | 14 |
-| 商用 | 阿里通义千问v1.0.7 | 81.0 | 15 |
-| 开源 | belle-llama-13b-2m | 80.7 | 16 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 17 |
-| 商用 | 豆包 | 80.0 | 18 |
-| 开源 | tigerbot-70b-chat-v2 | 80.0 | 19 |
-| 商用 | 讯飞星火v2.0 | 79.3 | 20 |
+| 开源 | tigerbot-70b-chat-v3 | 84.0 | 10 |
+| 开源 | Baichuan2-7B-Chat | 83.3 | 11 |
+| 商用 | 文心4.0 | 83.0 | 12 |
+| 商用 | 商汤senseChat | 82.7 | 13 |
+| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 14 |
+| 开源 | xverse-13b-chat | 81.3 | 15 |
+| 商用 | 阿里通义千问 | 81.0 | 16 |
+| 开源 | belle-llama-13b-2m | 80.7 | 17 |
+| 开源 | tigerbot-70b-chat-v2 | 80.0 | 18 |
+| 商用 | 豆包 | 80.0 | 19 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 20 |
| 开源 | openbuddy-llama-65b-v8 | 79.3 | 21 |
-| 开源 | chatglm3-6b | 78.7 | 22 |
-| 开源 | internlm-chat-20b | 77.3 | 23 |
-| 开源 | belle-llama-13b-ext | 76.7 | 24 |
-| 商用 | new-bing(8月) | 76.0 | 25 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 26 |
-| 商用 | 讯飞星火v1.5 | 76.0 | 27 |
+| 商用 | 讯飞星火v2.0 | 79.3 | 22 |
+| 开源 | chatglm3-6b | 78.7 | 23 |
+| 开源 | internlm-chat-20b | 77.3 | 24 |
+| 开源 | belle-llama-13b-ext | 76.7 | 25 |
+| 商用 | 讯飞星火v1.5 | 76.0 | 26 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 27 |
| 商用 | chatglm-std | 76.0 | 28 |
| 商用 | chatglm-pro | 76.0 | 29 |
-| 开源 | tulu-30b | 75.3 | 30 |
-| 开源 | linly-chatflow-13b | 74.7 | 31 |
+| 商用 | 微软new-bing | 76.0 | 30 |
+| 开源 | tulu-30b | 75.3 | 31 |
| 开源 | Baichuan2-13B-Chat | 74.7 | 32 |
-| 商用 | 360智脑 | 74.0 | 33 |
-| 商用 | minimax | 73.3 | 34 |
-| 开源 | Llama-2-70b-chat | 73.3 | 35 |
-| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 36 |
-| 商用 | chatglm-130b-v1 | 72.7 | 37 |
-| 开源 | wizardlm-13b | 72.0 | 38 |
-| 开源 | chatglm2-6b | 72.0 | 39 |
-| 开源 | belle-llama-7b-2m | 71.3 | 40 |
-| 开源 | phoenix-inst-chat-7b | 71.3 | 41 |
-| 开源 | ziya2-13b-chat | 71.3 | 42 |
-| 开源 | BELLE-on-Open-Datasets | 68.7 | 43 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 44 |
-| 开源 | InternLM-Chat-7B | 66.0 | 45 |
-| 开源 | vicuna-33b | 63.3 | 46 |
-| 开源 | AquilaChat-7B | 56.0 | 47 |
+| 开源 | linly-chatflow-13b | 74.7 | 33 |
+| 开源 | Qwen-7B-Chat | 74.0 | 34 |
+| 商用 | 360智脑 | 74.0 | 35 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 73.3 | 36 |
+| 开源 | Llama-2-70b-chat | 73.3 | 37 |
+| 商用 | minimax | 73.3 | 38 |
+| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 39 |
+| 商用 | chatglm-130b-v1 | 72.7 | 40 |
+| 开源 | chatglm2-6b | 72.0 | 41 |
+| 开源 | wizardlm-13b | 72.0 | 42 |
+| 开源 | belle-llama-7b-2m | 71.3 | 43 |
+| 开源 | phoenix-inst-chat-7b | 71.3 | 44 |
+| 开源 | ziya2-13b-chat | 71.3 | 45 |
+| 开源 | BELLE-on-Open-Datasets | 68.7 | 46 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 47 |
+| 开源 | InternLM-Chat-7B | 66.0 | 48 |
+| 开源 | vicuna-33b | 63.3 | 49 |
+| 开源 | AquilaChat-7B | 56.0 | 50 |
-### 5、 表格问答排行榜(数据分析)
+### 5、数据分析排行榜
暂不计入综合能力评分。
专门考查大模型对表格的理解分析能力,常用于数据分析。
![lin](pic/tableQA.png)
@@ -286,108 +315,105 @@
| 开源 | aquilachat2-34b | 83 | 5 |
| 商用 | 豆包 | 82 | 6 |
| 商用 | 文心一言v2.2 | 81 | 7 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 8 |
-| 商用 | Baichuan2-53B | 79 | 9 |
+| 商用 | Baichuan2-53B | 79 | 8 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 9 |
| 商用 | 商汤senseChat | 78 | 10 |
-| 开源 | belle-llama-13b-2m | 77 | 11 |
-| 开源 | Baichuan2-13B-Chat | 77 | 12 |
-| 开源 | qwen-14b-chat | 77 | 13 |
-| 商用 | 谷歌bard | 77 | 14 |
-| 开源 | openbuddy-llama-65b-v8 | 76 | 15 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 16 |
-| 商用 | chatglm-std | 73 | 17 |
-| 商用 | chatglm-pro | 73 | 18 |
-| 商用 | 阿里通义千问v1.0.7 | 73 | 19 |
-| 商用 | 文心4.0 | 72 | 20 |
-| 商用 | 讯飞星火v1.0 | 69 | 21 |
-| 开源 | belle-llama-13b-ext | 69 | 22 |
-| 开源 | Llama-2-70b-chat | 69 | 23 |
-| 商用 | chatglm-130b-v1 | 68 | 24 |
-| 开源 | ziya2-13b-chat | 68 | 25 |
-| 开源 | xverse-13b-chat | 67 | 26 |
-| 开源 | Baichuan-13B-Chat-v2 | 67 | 27 |
-| 商用 | 360智脑 | 66 | 28 |
-| 商用 | 讯飞星火v1.5 | 65 | 29 |
-| 开源 | internlm-chat-20b | 64 | 30 |
-| 商用 | minimax | 63 | 31 |
-| 开源 | tulu-30b | 61 | 32 |
-| 开源 | openbuddy-llama-30b-v7.1 | 60 | 33 |
-| 开源 | chatglm3-6b | 60 | 34 |
-| 开源 | belle-llama-7b-2m | 59 | 35 |
-| 开源 | linly-chatflow-13b | 59 | 36 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 37 |
-| 开源 | chatglm2-6b | 57 | 38 |
-| 开源 | llama2-13b-chat | 57 | 39 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 40 |
-| 开源 | AquilaChat-7B | 55 | 41 |
-| 开源 | vicuna-33b | 54 | 42 |
-| 开源 | InternLM-Chat-7B | 53 | 43 |
-| 开源 | BELLE-on-Open-Datasets | 48 | 44 |
-| 开源 | wizardlm-13b | 48 | 45 |
+| 商用 | 谷歌bard | 77 | 11 |
+| 开源 | qwen-14b-chat | 77 | 12 |
+| 开源 | belle-llama-13b-2m | 77 | 13 |
+| 开源 | Baichuan2-13B-Chat | 77 | 14 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 15 |
+| 开源 | openbuddy-llama-65b-v8 | 76 | 16 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 76 | 17 |
+| 商用 | 阿里通义千问 | 73 | 18 |
+| 商用 | chatglm-std | 73 | 19 |
+| 商用 | chatglm-pro | 73 | 20 |
+| 商用 | 文心4.0 | 72 | 21 |
+| 开源 | tigerbot-70b-chat-v3 | 71 | 22 |
+| 开源 | Baichuan2-7B-Chat | 69 | 23 |
+| 开源 | belle-llama-13b-ext | 69 | 24 |
+| 商用 | 讯飞星火v1.5 | 69 | 25 |
+| 开源 | Llama-2-70b-chat | 69 | 26 |
+| 商用 | chatglm-130b-v1 | 68 | 27 |
+| 开源 | ziya2-13b-chat | 68 | 28 |
+| 开源 | xverse-13b-chat | 67 | 29 |
+| 开源 | Baichuan-13B-Chat-v2 | 67 | 30 |
+| 商用 | 360智脑 | 66 | 31 |
+| 商用 | 讯飞星火v2.0 | 65 | 32 |
+| 开源 | internlm-chat-20b | 64 | 33 |
+| 商用 | minimax | 63 | 34 |
+| 开源 | tulu-30b | 61 | 35 |
+| 开源 | openbuddy-llama-30b-v7.1 | 60 | 36 |
+| 开源 | chatglm3-6b | 60 | 37 |
+| 开源 | linly-chatflow-13b | 59 | 38 |
+| 开源 | Qwen-7B-Chat | 59 | 39 |
+| 开源 | belle-llama-7b-2m | 59 | 40 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 41 |
+| 开源 | chatglm2-6b | 57 | 42 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 43 |
+| 开源 | AquilaChat-7B | 55 | 44 |
+| 开源 | vicuna-33b | 54 | 45 |
+| 开源 | InternLM-Chat-7B | 53 | 46 |
+| 开源 | wizardlm-13b | 48 | 47 |
+| 开源 | BELLE-on-Open-Datasets | 48 | 48 |
## 🌐 各项能力评分
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。
每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
-| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 综合能力 |
-|-------|-----------------------------|------|--------|--------|-------|
-| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93.8 |
-| 商用 | gpt4 | 94 | 94 | 99.3 | 95.8 |
-| 商用 | 文心一言old | 48 | 71 | 62.7 | 60.3 |
-| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 88.3 |
-| 商用 | chatglm官方 | 82 | 76 | 72.7 | 76.9 |
-| 商用 | 讯飞星火old | 70 | 79 | 80.7 | 76.6 |
-| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 77.7 |
-| 商用 | 360智脑 | 86 | 71 | 74.0 | 77.0 |
-| 商用 | 阿里通义千问 | 44 | 47 | 57.3 | 49.4 |
-| 商用 | minimax | 68 | 61 | 73.3 | 67.4 |
-| 开源 | chatglm-6b | 66 | 69 | 63.3 | 66.1 |
-| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 70.4 |
-| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 70.9 |
-| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 79.2 |
-| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 71.9 |
-| 开源 | Ziya-LLaMA-13B-v1 | 72 | 62 | 76.7 | 70.2 |
-| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 73.7 |
-| 开源 | guanaco-7b | 54 | 45 | 50.7 | 49.9 |
-| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | 71.8 |
-| 商用/开源 | tigerbot-7b官网 | 74 | 68 | 62.7 | 68.2 |
-| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 69.9 |
-| 开源 | MOSS-003-SFT | 58 | 47 | 71.3 | 58.8 |
-| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 59.0 |
-| 开源 | tulu-30b | 76 | 76 | 75.3 | 75.8 |
-| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 70.0 |
-| 开源 | Baichuan-13B-Chat | 70 | 64 | 72.0 | 68.7 |
-| 开源 | vicuna-33b | 82 | 65 | 63.3 | 70.1 |
-| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 64.0 |
-| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 61.0 |
-| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 75.1 |
-| 商用 | senseChat | 82 | 85 | 82.7 | 83.2 |
-| 商用 | new-bing(8月) | 82 | 44 | 76.0 | 67.3 |
-| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 80.0 |
-| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 70.8 |
-| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 75.4 |
-| 商用 | Baichuan-53B(8月) | 84 | 71 | 82.0 | 79.0 |
-| 商用 | chatglm-std | 84 | 71 | 76.0 | 77.0 |
-| 商用 | chatglm-pro | 84 | 70 | 76.0 | 76.7 |
-| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 79.1 |
-| 开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 77.1 |
-| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 85.6 |
-| 开源 | xverse-13b-chat | 86 | 72 | 81.3 | 79.8 |
-| 开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 74.6 |
-| 商用 | 阿里通义千问v1.0.7 | 81 | 81 | 81.0 | 81.0 |
-| 商用 | 豆包 | 79 | 77 | 80.0 | 78.7 |
-| 商用 | Baichuan2-53B | 76 | 84 | 88.0 | 82.7 |
-| 开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 80.2 |
-| 开源 | internlm-chat-20b | 74 | 64 | 77.3 | 71.8 |
-| 开源 | qwen-14b-chat | 84 | 72 | 84.7 | 80.2 |
-| 开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 87.0 |
-| 商用 | 文心4.0 | 88 | 84 | 83.0 | 85.0 |
-| 商用 | 谷歌bard | 86 | 88 | 85.3 | 86.4 |
-| 商用 | 讯飞星火v3 | 87 | 82 | 88.0 | 85.7 |
-| 开源 | aquilachat2-34b | 77 | 82 | 88.0 | 82.3 |
-| 开源 | ziya2-13b-chat | 76 | 54 | 71.3 | 67.1 |
-| 开源 | chatglm3-6b | 82 | 68 | 78.7 | 76.2 |
+| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 数据分析能力 | 综合能力 |
+|----|----------------------------|------|--------|--------|--------|------|
+| 商用 | gpt4 | 94 | 94 | 99.3 | 97 | 96.1 |
+| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93 | 93.6 |
+| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 81 | 86.5 |
+| 开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 85 | 86.5 |
+| 商用 | 讯飞星火v3 | 87 | 82 | 88.0 | 86 | 85.8 |
+| 商用 | 谷歌bard | 86 | 88 | 85.3 | 77 | 84.1 |
+| 开源 | tigerbot-70b-chat-v3 | 94 | 85 | 84.0 | 71 | 83.5 |
+| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 76 | 83.2 |
+| 开源 | aquilachat2-34b | 77 | 82 | 88.0 | 83 | 82.5 |
+| 商用 | 商汤senseChat | 82 | 85 | 82.7 | 78 | 81.9 |
+| 商用 | 文心4.0 | 88 | 84 | 83.0 | 72 | 81.8 |
+| 商用 | Baichuan2-53B | 76 | 84 | 88.0 | 79 | 81.8 |
+| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 79 | 79.8 |
+| 商用 | 豆包 | 79 | 77 | 80.0 | 82 | 79.5 |
+| 开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 77 | 79.4 |
+| 开源 | qwen-14b-chat | 84 | 72 | 84.7 | 77 | 79.4 |
+| 开源 | Baichuan2-7B-Chat | 88 | 76 | 83.3 | 69 | 79.1 |
+| 商用 | 阿里通义千问 | 81 | 81 | 81.0 | 73 | 79.0 |
+| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 77 | 78.7 |
+| 开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 76 | 76.8 |
+| 开源 | xverse-13b-chat | 86 | 72 | 81.3 | 67 | 76.6 |
+| 商用 | chatglm-std | 84 | 71 | 76.0 | 73 | 76.0 |
+| 商用 | chatglm-pro | 84 | 70 | 76.0 | 73 | 75.8 |
+| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 69 | 75.5 |
+| 开源 | openbuddy-mistral-7b-v13.1 | 79 | 72 | 73.3 | 76 | 75.1 |
+| 商用 | chatglm-130b-v1 | 82 | 76 | 72.7 | 68 | 74.7 |
+| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 60 | 74.3 |
+| 商用 | 360智脑 | 86 | 71 | 74.0 | 66 | 74.3 |
+| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 69 | 73.6 |
+| 开源 | Qwen-7B-Chat | 89 | 72 | 74.0 | 59 | 73.5 |
+| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 65 | 72.8 |
+| 开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 67 | 72.7 |
+| 开源 | chatglm3-6b | 82 | 68 | 78.7 | 60 | 72.2 |
+| 开源 | tulu-30b | 76 | 76 | 75.3 | 61 | 72.1 |
+| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 69 | 71.2 |
+| 开源 | internlm-chat-20b | 74 | 64 | 77.3 | 64 | 69.8 |
+| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 58 | 69.8 |
+| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 59 | 67.6 |
+| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 57 | 67.3 |
+| 开源 | ziya2-13b-chat | 76 | 54 | 71.3 | 68 | 67.3 |
+| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 59 | 67.2 |
+| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 57 | 66.8 |
+| 商用 | minimax | 68 | 61 | 73.3 | 63 | 66.3 |
+| 开源 | vicuna-33b | 82 | 65 | 63.3 | 54 | 66.1 |
+| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 48 | 65.2 |
+| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 48 | 60.0 |
+| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 53 | 59.0 |
+| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 55 | 58.0 |
+| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | / | / |
+| 商用 | 微软new-bing | 82 | 44 | 76.0 | / | / |
diff --git a/pic/classification.png b/pic/classification.png
index 843e843..23941d8 100644
Binary files a/pic/classification.png and b/pic/classification.png differ
diff --git a/pic/extract.png b/pic/extract.png
index 290a479..9b3fda4 100644
Binary files a/pic/extract.png and b/pic/extract.png differ
diff --git a/pic/mrc.png b/pic/mrc.png
index a2f3e77..59205a3 100644
Binary files a/pic/mrc.png and b/pic/mrc.png differ
diff --git a/pic/tableQA.png b/pic/tableQA.png
index e5379ec..4106f79 100644
Binary files a/pic/tableQA.png and b/pic/tableQA.png differ
diff --git a/pic/total.png b/pic/total.png
index 5f3d246..674b926 100644
Binary files a/pic/total.png and b/pic/total.png differ