diff --git a/README.md b/README.md index ab508aa..73c9c8a 100644 --- a/README.md +++ b/README.md @@ -5,7 +5,25 @@ - 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。 - 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行! -## 🔄 最近更新 +## 目录 +- [🔄最近更新](#最近更新) +- [⚓TODO](#todo) +- [📝大模型基本信息](#大模型基本信息) +- [📊排行榜](#-排行榜) + - [综合能力排行榜](#1综合能力排行榜) + - [分类能力排行榜](#2分类能力排行榜) + - [信息抽取能力排行榜](#3信息抽取能力排行榜) + - [阅读理解能力排行榜](#4阅读理解能力排行榜) + - [数据分析排行榜](#5数据分析排行榜) +- [🌐各项能力评分](#各项能力评分) +- [⚖️原始评测数据](#原始评测数据) +- [为什么做榜单?](#为什么做榜单) + + +## 最近更新 +- [2023/11/22] 发布v1.11版本评测榜单 + - 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3 + - 将数据分析能力计入综合得分 - [2023/11/5] 发布v1.10版本评测榜单 - 新增6个大模型: - 3个商用模型:文心4.0、谷歌bard、讯飞星火v3 @@ -41,7 +59,7 @@ - 新增表格问答评测维度,作为阅读理解能力的细分项 - [2023/6/4] 发布v1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.0) -## ⚓TODO +## TODO - 将更多大模型加入评测:Claude、falcon等等 - 增加开源大模型的授权协议,注明能否商用 - 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译…… @@ -49,65 +67,67 @@ - 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域) - 加入更多评测数据,使得评测得分越来越有说服力 -## 📝大模型基本信息 +## 大模型基本信息 详见 [中文大模型资源汇总(商用及开源)](https://github.com/jeinlee1991/chinese-llm-benchmark/blob/main/LLM-info.md) ## 📊 排行榜 ### 1、综合能力排行榜 -综合能力得分为分类能力、信息抽取能力、阅读理解能力三者得分的平均值。 +综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。 ![lin](pic/total.png) | 类别 | 大模型 | 总分 | 排名 | |-----|----------------------------|------|----| -| 商用 | gpt4 | 95.8 | 1 | -| 商用 | chatgpt-3.5 | 93.8 | 2 | -| 商用 | 文心一言v2.2 | 88.3 | 3 | -| 开源 | tigerbot-70b-chat-v2 | 87.0 | 4 | -| 商用 | 谷歌bard | 86.4 | 5 | -| 商用 | 讯飞星火v3 | 85.7 | 6 | -| 开源 | openbuddy-llama2-70b-v10.1 | 85.6 | 7 | -| 商用 | 文心4.0 | 85.0 | 8 | -| 商用 | 商汤senseChat | 83.2 | 9 | -| 商用 | Baichuan2-53B | 82.7 | 10 | -| 开源 | aquilachat2-34b | 82.3 | 11 | -| 商用 | 阿里通义千问v1.0.7 | 81.0 | 12 | -| 开源 | Baichuan2-13B-Chat | 80.2 | 13 | -| 开源 | qwen-14b-chat | 80.2 | 14 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 80.0 | 15 | -| 开源 | xverse-13b-chat | 79.8 | 16 | -| 开源 | belle-llama-13b-2m | 79.2 | 17 | -| 开源 | openbuddy-llama-30b-v7.1 | 79.1 | 18 | -| 商用 | Baichuan-53B | 79.0 | 19 | -| 商用 | 豆包 | 78.7 | 20 | -| 商用 | 讯飞星火v1.5 | 77.7 | 21 | -| 开源 | openbuddy-llama-65b-v8 | 77.1 | 22 | -| 商用 | 360智脑 | 77.0 | 23 | -| 商用 | chatglm-std | 77.0 | 24 | -| 商用 | chatglm-130b-v1 | 76.9 | 25 | -| 商用 | chatglm-pro | 76.7 | 26 | -| 开源 | chatglm3-6b | 76.2 | 27 | -| 开源 | tulu-30b | 75.8 | 28 | -| 商用 | 讯飞星火v2.0 | 75.4 | 29 | -| 开源 | Llama-2-70b-chat | 75.1 | 30 | -| 开源 | Baichuan-13B-Chat-v2 | 74.6 | 31 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 73.7 | 32 | -| 开源 | belle-llama-13b-ext | 71.9 | 33 | -| 开源 | phoenix-inst-chat-7b | 71.8 | 34 | -| 开源 | internlm-chat-20b | 71.8 | 35 | -| 开源 | BELLE-on-Open-Datasets | 70.9 | 36 | -| 开源 | Linly-Chinese-LLaMA2-13B | 70.8 | 37 | -| 开源 | belle-llama-7b-2m | 70.4 | 38 | -| 开源 | vicuna-33b | 70.1 | 39 | -| 开源 | chatglm2-6b | 70.0 | 40 | -| 开源 | linly-chatflow-13b | 69.9 | 41 | -| 商用 | minimax | 67.4 | 42 | -| 商用 | new-bing(8月) | 67.3 | 43 | -| 开源 | ziya2-13b-chat | 67.1 | 44 | -| 开源 | wizardlm-13b | 64.0 | 45 | -| 开源 | InternLM-Chat-7B | 61.0 | 46 | -| 开源 | AquilaChat-7B | 59.0 | 47 | - +| 商用 | gpt4 | 96.1 | 1 | +| 商用 | chatgpt-3.5 | 93.6 | 2 | +| 开源 | tigerbot-70b-chat-v2 | 86.5 | 3 | +| 商用 | 文心一言v2.2 | 86.5 | 4 | +| 商用 | 讯飞星火v3 | 85.8 | 5 | +| 商用 | 谷歌bard | 84.1 | 6 | +| 开源 | tigerbot-70b-chat-v3 | 83.5 | 7 | +| 开源 | openbuddy-llama2-70b-v10.1 | 83.2 | 8 | +| 开源 | aquilachat2-34b | 82.5 | 9 | +| 商用 | 商汤senseChat | 81.9 | 10 | +| 商用 | 文心4.0 | 81.8 | 11 | +| 商用 | Baichuan2-53B | 81.8 | 12 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 79.8 | 13 | +| 商用 | 豆包 | 79.5 | 14 | +| 开源 | qwen-14b-chat | 79.4 | 15 | +| 开源 | Baichuan2-13B-Chat | 79.4 | 16 | +| 开源 | Baichuan2-7B-Chat | 79.1 | 17 | +| 商用 | 阿里通义千问 | 79.0 | 18 | +| 开源 | belle-llama-13b-2m | 78.7 | 19 | +| 开源 | openbuddy-llama-65b-v8 | 76.8 | 20 | +| 开源 | xverse-13b-chat | 76.6 | 21 | +| 商用 | chatglm-std | 76.0 | 22 | +| 商用 | chatglm-pro | 75.8 | 23 | +| 商用 | 讯飞星火v1.5 | 75.5 | 24 | +| 开源 | openbuddy-mistral-7b-v13.1 | 75.1 | 25 | +| 商用 | chatglm-130b-v1 | 74.7 | 26 | +| 开源 | openbuddy-llama-30b-v7.1 | 74.3 | 27 | +| 商用 | 360智脑 | 74.3 | 28 | +| 开源 | Llama-2-70b-chat | 73.6 | 29 | +| 开源 | Qwen-7B-Chat | 73.5 | 30 | +| 商用 | 讯飞星火v2.0 | 72.8 | 31 | +| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 32 | +| 开源 | chatglm3-6b | 72.2 | 33 | +| 开源 | tulu-30b | 72.1 | 34 | +| 开源 | belle-llama-13b-ext | 71.2 | 35 | +| 开源 | internlm-chat-20b | 69.8 | 36 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 69.8 | 37 | +| 开源 | belle-llama-7b-2m | 67.6 | 38 | +| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 39 | +| 开源 | ziya2-13b-chat | 67.3 | 40 | +| 开源 | linly-chatflow-13b | 67.2 | 41 | +| 开源 | chatglm2-6b | 66.8 | 42 | +| 商用 | minimax | 66.3 | 43 | +| 开源 | vicuna-33b | 66.1 | 44 | +| 开源 | BELLE-on-Open-Datasets | 65.2 | 45 | +| 开源 | wizardlm-13b | 60.0 | 46 | +| 开源 | InternLM-Chat-7B | 59.0 | 47 | +| 开源 | AquilaChat-7B | 58.0 | 48 |

+ + ### 2、分类能力排行榜 ![lin](pic/classification.png) @@ -116,50 +136,53 @@ | 商用 | chatgpt-3.5 | 98 | 1 | | 开源 | tigerbot-70b-chat-v2 | 97 | 2 | | 商用 | gpt4 | 94 | 3 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 4 | +| 开源 | tigerbot-70b-chat-v3 | 94 | 4 | | 商用 | 文心一言v2.2 | 90 | 5 | -| 商用 | 文心4.0 | 88 | 6 | -| 商用 | 讯飞星火v3 | 87 | 7 | -| 开源 | Llama-2-70b-chat | 86 | 8 | -| 商用 | 360智脑 | 86 | 9 | -| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 10 | -| 开源 | xverse-13b-chat | 86 | 11 | -| 商用 | 谷歌bard | 86 | 12 | -| 商用 | Baichuan-53B | 84 | 13 | -| 商用 | chatglm-std | 84 | 14 | -| 商用 | chatglm-pro | 84 | 15 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 6 | +| 开源 | Qwen-7B-Chat | 89 | 7 | +| 商用 | 文心4.0 | 88 | 8 | +| 开源 | Baichuan2-7B-Chat | 88 | 9 | +| 商用 | 讯飞星火v3 | 87 | 10 | +| 商用 | 谷歌bard | 86 | 11 | +| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 12 | +| 开源 | xverse-13b-chat | 86 | 13 | +| 商用 | 360智脑 | 86 | 14 | +| 开源 | Llama-2-70b-chat | 86 | 15 | | 开源 | qwen-14b-chat | 84 | 16 | -| 开源 | Baichuan2-13B-Chat | 83 | 17 | -| 开源 | vicuna-33b | 82 | 18 | -| 商用 | 商汤senseChat | 82 | 19 | -| 开源 | phoenix-inst-chat-7b | 82 | 20 | -| 商用 | new-bing(8月) | 82 | 21 | +| 商用 | chatglm-std | 84 | 17 | +| 商用 | chatglm-pro | 84 | 18 | +| 开源 | Baichuan2-13B-Chat | 83 | 19 | +| 商用 | 商汤senseChat | 82 | 20 | +| 开源 | belle-llama-13b-2m | 82 | 21 | | 商用 | chatglm-130b-v1 | 82 | 22 | -| 开源 | BELLE-on-Open-Datasets | 82 | 23 | -| 开源 | belle-llama-13b-2m | 82 | 24 | -| 开源 | openbuddy-llama-30b-v7.1 | 82 | 25 | -| 开源 | Baichuan-13B-Chat-v2 | 82 | 26 | -| 开源 | chatglm3-6b | 82 | 27 | -| 商用 | 阿里通义千问v1.0.7 | 81 | 28 | -| 商用 | 豆包 | 79 | 29 | -| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 30 | -| 开源 | aquilachat2-34b | 77 | 31 | -| 开源 | tulu-30b | 76 | 32 | -| 开源 | belle-llama-7b-2m | 76 | 33 | -| 商用 | 讯飞星火v1.5 | 76 | 34 | +| 开源 | openbuddy-llama-30b-v7.1 | 82 | 23 | +| 开源 | Baichuan-13B-Chat-v2 | 82 | 24 | +| 开源 | chatglm3-6b | 82 | 25 | +| 开源 | vicuna-33b | 82 | 26 | +| 开源 | BELLE-on-Open-Datasets | 82 | 27 | +| 开源 | phoenix-inst-chat-7b | 82 | 28 | +| 商用 | 微软new-bing | 82 | 29 | +| 商用 | 阿里通义千问 | 81 | 30 | +| 商用 | 豆包 | 79 | 31 | +| 开源 | openbuddy-mistral-7b-v13.1 | 79 | 32 | +| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 33 | +| 开源 | aquilachat2-34b | 77 | 34 | | 商用 | Baichuan2-53B | 76 | 35 | -| 开源 | ziya2-13b-chat | 76 | 36 | -| 开源 | belle-llama-13b-ext | 74 | 37 | -| 开源 | internlm-chat-20b | 74 | 38 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 39 | -| 开源 | linly-chatflow-13b | 72 | 40 | -| 商用 | 讯飞星火v2.0 | 72 | 41 | -| 开源 | chatglm2-6b | 70 | 42 | -| 开源 | AquilaChat-7B | 70 | 43 | -| 开源 | wizardlm-13b | 68 | 44 | -| 商用 | minimax | 68 | 45 | -| 开源 | openbuddy-llama-65b-v8 | 68 | 46 | -| 开源 | InternLM-Chat-7B | 62 | 47 | +| 商用 | 讯飞星火v1.5 | 76 | 36 | +| 开源 | tulu-30b | 76 | 37 | +| 开源 | belle-llama-7b-2m | 76 | 38 | +| 开源 | ziya2-13b-chat | 76 | 39 | +| 开源 | belle-llama-13b-ext | 74 | 40 | +| 开源 | internlm-chat-20b | 74 | 41 | +| 商用 | 讯飞星火v2.0 | 72 | 42 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 43 | +| 开源 | linly-chatflow-13b | 72 | 44 | +| 开源 | chatglm2-6b | 70 | 45 | +| 开源 | AquilaChat-7B | 70 | 46 | +| 开源 | openbuddy-llama-65b-v8 | 68 | 47 | +| 商用 | minimax | 68 | 48 | +| 开源 | wizardlm-13b | 68 | 49 | +| 开源 | InternLM-Chat-7B | 62 | 50 |

### 3、信息抽取能力排行榜 @@ -171,49 +194,52 @@ | 商用 | chatgpt-3.5 | 88 | 2 | | 商用 | 谷歌bard | 88 | 3 | | 商用 | 文心一言v2.2 | 87 | 4 | -| 商用 | 商汤senseChat | 85 | 5 | -| 开源 | openbuddy-llama-65b-v8 | 84 | 6 | -| 开源 | openbuddy-llama2-70b-v10.1 | 84 | 7 | -| 商用 | Baichuan2-53B | 84 | 8 | -| 开源 | tigerbot-70b-chat-v2 | 84 | 9 | -| 商用 | 文心4.0 | 84 | 10 | -| 开源 | Baichuan2-13B-Chat | 83 | 11 | -| 商用 | 讯飞星火v3 | 82 | 12 | -| 开源 | aquilachat2-34b | 82 | 13 | -| 商用 | 讯飞星火v1.5 | 81 | 14 | -| 商用 | 阿里通义千问v1.0.7 | 81 | 15 | -| 商用 | 豆包 | 77 | 16 | -| 开源 | tulu-30b | 76 | 17 | -| 商用 | chatglm-130b-v1 | 76 | 18 | -| 开源 | belle-llama-13b-2m | 75 | 19 | -| 商用 | 讯飞星火v2.0 | 75 | 20 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 21 | -| 开源 | openbuddy-llama-30b-v7.1 | 74 | 22 | -| 开源 | xverse-13b-chat | 72 | 23 | -| 开源 | qwen-14b-chat | 72 | 24 | -| 商用 | 360智脑 | 71 | 25 | -| 商用 | Baichuan-53B | 71 | 26 | -| 商用 | chatglm-std | 71 | 27 | -| 商用 | chatglm-pro | 70 | 28 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 29 | -| 开源 | Baichuan-13B-Chat-v2 | 69 | 30 | -| 开源 | chatglm2-6b | 68 | 31 | -| 开源 | chatglm3-6b | 68 | 32 | -| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 33 | -| 开源 | Llama-2-70b-chat | 66 | 34 | -| 开源 | vicuna-33b | 65 | 35 | -| 开源 | belle-llama-13b-ext | 65 | 36 | -| 开源 | belle-llama-7b-2m | 64 | 37 | -| 开源 | internlm-chat-20b | 64 | 38 | -| 开源 | linly-chatflow-13b | 63 | 39 | -| 开源 | phoenix-inst-chat-7b | 62 | 40 | -| 开源 | BELLE-on-Open-Datasets | 62 | 41 | -| 商用 | minimax | 61 | 42 | -| 开源 | InternLM-Chat-7B | 55 | 43 | -| 开源 | ziya2-13b-chat | 54 | 44 | -| 开源 | wizardlm-13b | 52 | 45 | -| 开源 | AquilaChat-7B | 51 | 46 | -| 商用 | new-bing(8月) | 44 | 47 | +| 开源 | tigerbot-70b-chat-v3 | 85 | 5 | +| 商用 | 商汤senseChat | 85 | 6 | +| 开源 | tigerbot-70b-chat-v2 | 84 | 7 | +| 开源 | openbuddy-llama2-70b-v10.1 | 84 | 8 | +| 商用 | 文心4.0 | 84 | 9 | +| 商用 | Baichuan2-53B | 84 | 10 | +| 开源 | openbuddy-llama-65b-v8 | 84 | 11 | +| 开源 | Baichuan2-13B-Chat | 83 | 12 | +| 商用 | 讯飞星火v3 | 82 | 13 | +| 开源 | aquilachat2-34b | 82 | 14 | +| 商用 | 阿里通义千问 | 81 | 15 | +| 商用 | 讯飞星火v1.5 | 81 | 16 | +| 商用 | 豆包 | 77 | 17 | +| 开源 | Baichuan2-7B-Chat | 76 | 18 | +| 商用 | chatglm-130b-v1 | 76 | 19 | +| 开源 | tulu-30b | 76 | 20 | +| 开源 | belle-llama-13b-2m | 75 | 21 | +| 商用 | 讯飞星火v2.0 | 75 | 22 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 74 | 23 | +| 开源 | openbuddy-llama-30b-v7.1 | 74 | 24 | +| 开源 | qwen-14b-chat | 72 | 25 | +| 开源 | xverse-13b-chat | 72 | 26 | +| 开源 | openbuddy-mistral-7b-v13.1 | 72 | 27 | +| 开源 | Qwen-7B-Chat | 72 | 28 | +| 商用 | chatglm-std | 71 | 29 | +| 商用 | 360智脑 | 71 | 30 | +| 商用 | chatglm-pro | 70 | 31 | +| 开源 | Baichuan-13B-Chat-v2 | 69 | 32 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 69 | 33 | +| 开源 | chatglm3-6b | 68 | 34 | +| 开源 | chatglm2-6b | 68 | 35 | +| 开源 | Linly-Chinese-LLaMA2-13B | 67 | 36 | +| 开源 | Llama-2-70b-chat | 66 | 37 | +| 开源 | belle-llama-13b-ext | 65 | 38 | +| 开源 | vicuna-33b | 65 | 39 | +| 开源 | internlm-chat-20b | 64 | 40 | +| 开源 | belle-llama-7b-2m | 64 | 41 | +| 开源 | linly-chatflow-13b | 63 | 42 | +| 开源 | BELLE-on-Open-Datasets | 62 | 43 | +| 开源 | phoenix-inst-chat-7b | 62 | 44 | +| 商用 | minimax | 61 | 45 | +| 开源 | InternLM-Chat-7B | 55 | 46 | +| 开源 | ziya2-13b-chat | 54 | 47 | +| 开源 | wizardlm-13b | 52 | 48 | +| 开源 | AquilaChat-7B | 51 | 49 | +| 商用 | 微软new-bing | 44 | 50 |

### 4、阅读理解能力排行榜 @@ -232,47 +258,50 @@ | 开源 | openbuddy-llama2-70b-v10.1 | 86.7 | 7 | | 商用 | 谷歌bard | 85.3 | 8 | | 开源 | qwen-14b-chat | 84.7 | 9 | -| 商用 | 文心4.0 | 83.0 | 10 | -| 商用 | 商汤senseChat | 82.7 | 11 | -| 商用 | Baichuan-53B | 82.0 | 12 | -| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 13 | -| 开源 | xverse-13b-chat | 81.3 | 14 | -| 商用 | 阿里通义千问v1.0.7 | 81.0 | 15 | -| 开源 | belle-llama-13b-2m | 80.7 | 16 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 17 | -| 商用 | 豆包 | 80.0 | 18 | -| 开源 | tigerbot-70b-chat-v2 | 80.0 | 19 | -| 商用 | 讯飞星火v2.0 | 79.3 | 20 | +| 开源 | tigerbot-70b-chat-v3 | 84.0 | 10 | +| 开源 | Baichuan2-7B-Chat | 83.3 | 11 | +| 商用 | 文心4.0 | 83.0 | 12 | +| 商用 | 商汤senseChat | 82.7 | 13 | +| 开源 | openbuddy-llama-30b-v7.1 | 81.3 | 14 | +| 开源 | xverse-13b-chat | 81.3 | 15 | +| 商用 | 阿里通义千问 | 81.0 | 16 | +| 开源 | belle-llama-13b-2m | 80.7 | 17 | +| 开源 | tigerbot-70b-chat-v2 | 80.0 | 18 | +| 商用 | 豆包 | 80.0 | 19 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 80.0 | 20 | | 开源 | openbuddy-llama-65b-v8 | 79.3 | 21 | -| 开源 | chatglm3-6b | 78.7 | 22 | -| 开源 | internlm-chat-20b | 77.3 | 23 | -| 开源 | belle-llama-13b-ext | 76.7 | 24 | -| 商用 | new-bing(8月) | 76.0 | 25 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 26 | -| 商用 | 讯飞星火v1.5 | 76.0 | 27 | +| 商用 | 讯飞星火v2.0 | 79.3 | 22 | +| 开源 | chatglm3-6b | 78.7 | 23 | +| 开源 | internlm-chat-20b | 77.3 | 24 | +| 开源 | belle-llama-13b-ext | 76.7 | 25 | +| 商用 | 讯飞星火v1.5 | 76.0 | 26 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 76.0 | 27 | | 商用 | chatglm-std | 76.0 | 28 | | 商用 | chatglm-pro | 76.0 | 29 | -| 开源 | tulu-30b | 75.3 | 30 | -| 开源 | linly-chatflow-13b | 74.7 | 31 | +| 商用 | 微软new-bing | 76.0 | 30 | +| 开源 | tulu-30b | 75.3 | 31 | | 开源 | Baichuan2-13B-Chat | 74.7 | 32 | -| 商用 | 360智脑 | 74.0 | 33 | -| 商用 | minimax | 73.3 | 34 | -| 开源 | Llama-2-70b-chat | 73.3 | 35 | -| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 36 | -| 商用 | chatglm-130b-v1 | 72.7 | 37 | -| 开源 | wizardlm-13b | 72.0 | 38 | -| 开源 | chatglm2-6b | 72.0 | 39 | -| 开源 | belle-llama-7b-2m | 71.3 | 40 | -| 开源 | phoenix-inst-chat-7b | 71.3 | 41 | -| 开源 | ziya2-13b-chat | 71.3 | 42 | -| 开源 | BELLE-on-Open-Datasets | 68.7 | 43 | -| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 44 | -| 开源 | InternLM-Chat-7B | 66.0 | 45 | -| 开源 | vicuna-33b | 63.3 | 46 | -| 开源 | AquilaChat-7B | 56.0 | 47 | +| 开源 | linly-chatflow-13b | 74.7 | 33 | +| 开源 | Qwen-7B-Chat | 74.0 | 34 | +| 商用 | 360智脑 | 74.0 | 35 | +| 开源 | openbuddy-mistral-7b-v13.1 | 73.3 | 36 | +| 开源 | Llama-2-70b-chat | 73.3 | 37 | +| 商用 | minimax | 73.3 | 38 | +| 开源 | Baichuan-13B-Chat-v2 | 72.7 | 39 | +| 商用 | chatglm-130b-v1 | 72.7 | 40 | +| 开源 | chatglm2-6b | 72.0 | 41 | +| 开源 | wizardlm-13b | 72.0 | 42 | +| 开源 | belle-llama-7b-2m | 71.3 | 43 | +| 开源 | phoenix-inst-chat-7b | 71.3 | 44 | +| 开源 | ziya2-13b-chat | 71.3 | 45 | +| 开源 | BELLE-on-Open-Datasets | 68.7 | 46 | +| 开源 | Linly-Chinese-LLaMA2-13B | 67.3 | 47 | +| 开源 | InternLM-Chat-7B | 66.0 | 48 | +| 开源 | vicuna-33b | 63.3 | 49 | +| 开源 | AquilaChat-7B | 56.0 | 50 |

-### 5、 表格问答排行榜(数据分析) +### 5、数据分析排行榜 暂不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。 ![lin](pic/tableQA.png) @@ -286,108 +315,105 @@ | 开源 | aquilachat2-34b | 83 | 5 | | 商用 | 豆包 | 82 | 6 | | 商用 | 文心一言v2.2 | 81 | 7 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 8 | -| 商用 | Baichuan2-53B | 79 | 9 | +| 商用 | Baichuan2-53B | 79 | 8 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 79 | 9 | | 商用 | 商汤senseChat | 78 | 10 | -| 开源 | belle-llama-13b-2m | 77 | 11 | -| 开源 | Baichuan2-13B-Chat | 77 | 12 | -| 开源 | qwen-14b-chat | 77 | 13 | -| 商用 | 谷歌bard | 77 | 14 | -| 开源 | openbuddy-llama-65b-v8 | 76 | 15 | -| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 16 | -| 商用 | chatglm-std | 73 | 17 | -| 商用 | chatglm-pro | 73 | 18 | -| 商用 | 阿里通义千问v1.0.7 | 73 | 19 | -| 商用 | 文心4.0 | 72 | 20 | -| 商用 | 讯飞星火v1.0 | 69 | 21 | -| 开源 | belle-llama-13b-ext | 69 | 22 | -| 开源 | Llama-2-70b-chat | 69 | 23 | -| 商用 | chatglm-130b-v1 | 68 | 24 | -| 开源 | ziya2-13b-chat | 68 | 25 | -| 开源 | xverse-13b-chat | 67 | 26 | -| 开源 | Baichuan-13B-Chat-v2 | 67 | 27 | -| 商用 | 360智脑 | 66 | 28 | -| 商用 | 讯飞星火v1.5 | 65 | 29 | -| 开源 | internlm-chat-20b | 64 | 30 | -| 商用 | minimax | 63 | 31 | -| 开源 | tulu-30b | 61 | 32 | -| 开源 | openbuddy-llama-30b-v7.1 | 60 | 33 | -| 开源 | chatglm3-6b | 60 | 34 | -| 开源 | belle-llama-7b-2m | 59 | 35 | -| 开源 | linly-chatflow-13b | 59 | 36 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 37 | -| 开源 | chatglm2-6b | 57 | 38 | -| 开源 | llama2-13b-chat | 57 | 39 | -| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 40 | -| 开源 | AquilaChat-7B | 55 | 41 | -| 开源 | vicuna-33b | 54 | 42 | -| 开源 | InternLM-Chat-7B | 53 | 43 | -| 开源 | BELLE-on-Open-Datasets | 48 | 44 | -| 开源 | wizardlm-13b | 48 | 45 | +| 商用 | 谷歌bard | 77 | 11 | +| 开源 | qwen-14b-chat | 77 | 12 | +| 开源 | belle-llama-13b-2m | 77 | 13 | +| 开源 | Baichuan2-13B-Chat | 77 | 14 | +| 开源 | openbuddy-llama2-70b-v10.1 | 76 | 15 | +| 开源 | openbuddy-llama-65b-v8 | 76 | 16 | +| 开源 | openbuddy-mistral-7b-v13.1 | 76 | 17 | +| 商用 | 阿里通义千问 | 73 | 18 | +| 商用 | chatglm-std | 73 | 19 | +| 商用 | chatglm-pro | 73 | 20 | +| 商用 | 文心4.0 | 72 | 21 | +| 开源 | tigerbot-70b-chat-v3 | 71 | 22 | +| 开源 | Baichuan2-7B-Chat | 69 | 23 | +| 开源 | belle-llama-13b-ext | 69 | 24 | +| 商用 | 讯飞星火v1.5 | 69 | 25 | +| 开源 | Llama-2-70b-chat | 69 | 26 | +| 商用 | chatglm-130b-v1 | 68 | 27 | +| 开源 | ziya2-13b-chat | 68 | 28 | +| 开源 | xverse-13b-chat | 67 | 29 | +| 开源 | Baichuan-13B-Chat-v2 | 67 | 30 | +| 商用 | 360智脑 | 66 | 31 | +| 商用 | 讯飞星火v2.0 | 65 | 32 | +| 开源 | internlm-chat-20b | 64 | 33 | +| 商用 | minimax | 63 | 34 | +| 开源 | tulu-30b | 61 | 35 | +| 开源 | openbuddy-llama-30b-v7.1 | 60 | 36 | +| 开源 | chatglm3-6b | 60 | 37 | +| 开源 | linly-chatflow-13b | 59 | 38 | +| 开源 | Qwen-7B-Chat | 59 | 39 | +| 开源 | belle-llama-7b-2m | 59 | 40 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 58 | 41 | +| 开源 | chatglm2-6b | 57 | 42 | +| 开源 | Linly-Chinese-LLaMA2-13B | 57 | 43 | +| 开源 | AquilaChat-7B | 55 | 44 | +| 开源 | vicuna-33b | 54 | 45 | +| 开源 | InternLM-Chat-7B | 53 | 46 | +| 开源 | wizardlm-13b | 48 | 47 | +| 开源 | BELLE-on-Open-Datasets | 48 | 48 |

## 🌐 各项能力评分 评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。 -| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 综合能力 | -|-------|-----------------------------|------|--------|--------|-------| -| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93.8 | -| 商用 | gpt4 | 94 | 94 | 99.3 | 95.8 | -| 商用 | 文心一言old | 48 | 71 | 62.7 | 60.3 | -| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 88.3 | -| 商用 | chatglm官方 | 82 | 76 | 72.7 | 76.9 | -| 商用 | 讯飞星火old | 70 | 79 | 80.7 | 76.6 | -| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 77.7 | -| 商用 | 360智脑 | 86 | 71 | 74.0 | 77.0 | -| 商用 | 阿里通义千问 | 44 | 47 | 57.3 | 49.4 | -| 商用 | minimax | 68 | 61 | 73.3 | 67.4 | -| 开源 | chatglm-6b | 66 | 69 | 63.3 | 66.1 | -| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 70.4 | -| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 70.9 | -| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 79.2 | -| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 71.9 | -| 开源 | Ziya-LLaMA-13B-v1 | 72 | 62 | 76.7 | 70.2 | -| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 73.7 | -| 开源 | guanaco-7b | 54 | 45 | 50.7 | 49.9 | -| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | 71.8 | -| 商用/开源 | tigerbot-7b官网 | 74 | 68 | 62.7 | 68.2 | -| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 69.9 | -| 开源 | MOSS-003-SFT | 58 | 47 | 71.3 | 58.8 | -| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 59.0 | -| 开源 | tulu-30b | 76 | 76 | 75.3 | 75.8 | -| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 70.0 | -| 开源 | Baichuan-13B-Chat | 70 | 64 | 72.0 | 68.7 | -| 开源 | vicuna-33b | 82 | 65 | 63.3 | 70.1 | -| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 64.0 | -| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 61.0 | -| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 75.1 | -| 商用 | senseChat | 82 | 85 | 82.7 | 83.2 | -| 商用 | new-bing(8月) | 82 | 44 | 76.0 | 67.3 | -| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 80.0 | -| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 70.8 | -| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 75.4 | -| 商用 | Baichuan-53B(8月) | 84 | 71 | 82.0 | 79.0 | -| 商用 | chatglm-std | 84 | 71 | 76.0 | 77.0 | -| 商用 | chatglm-pro | 84 | 70 | 76.0 | 76.7 | -| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 79.1 | -| 开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 77.1 | -| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 85.6 | -| 开源 | xverse-13b-chat | 86 | 72 | 81.3 | 79.8 | -| 开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 74.6 | -| 商用 | 阿里通义千问v1.0.7 | 81 | 81 | 81.0 | 81.0 | -| 商用 | 豆包 | 79 | 77 | 80.0 | 78.7 | -| 商用 | Baichuan2-53B | 76 | 84 | 88.0 | 82.7 | -| 开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 80.2 | -| 开源 | internlm-chat-20b | 74 | 64 | 77.3 | 71.8 | -| 开源 | qwen-14b-chat | 84 | 72 | 84.7 | 80.2 | -| 开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 87.0 | -| 商用 | 文心4.0 | 88 | 84 | 83.0 | 85.0 | -| 商用 | 谷歌bard | 86 | 88 | 85.3 | 86.4 | -| 商用 | 讯飞星火v3 | 87 | 82 | 88.0 | 85.7 | -| 开源 | aquilachat2-34b | 77 | 82 | 88.0 | 82.3 | -| 开源 | ziya2-13b-chat | 76 | 54 | 71.3 | 67.1 | -| 开源 | chatglm3-6b | 82 | 68 | 78.7 | 76.2 | +| 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 数据分析能力 | 综合能力 | +|----|----------------------------|------|--------|--------|--------|------| +| 商用 | gpt4 | 94 | 94 | 99.3 | 97 | 96.1 | +| 商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93 | 93.6 | +| 商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 81 | 86.5 | +| 开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 85 | 86.5 | +| 商用 | 讯飞星火v3 | 87 | 82 | 88.0 | 86 | 85.8 | +| 商用 | 谷歌bard | 86 | 88 | 85.3 | 77 | 84.1 | +| 开源 | tigerbot-70b-chat-v3 | 94 | 85 | 84.0 | 71 | 83.5 | +| 开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 76 | 83.2 | +| 开源 | aquilachat2-34b | 77 | 82 | 88.0 | 83 | 82.5 | +| 商用 | 商汤senseChat | 82 | 85 | 82.7 | 78 | 81.9 | +| 商用 | 文心4.0 | 88 | 84 | 83.0 | 72 | 81.8 | +| 商用 | Baichuan2-53B | 76 | 84 | 88.0 | 79 | 81.8 | +| 开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 79 | 79.8 | +| 商用 | 豆包 | 79 | 77 | 80.0 | 82 | 79.5 | +| 开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 77 | 79.4 | +| 开源 | qwen-14b-chat | 84 | 72 | 84.7 | 77 | 79.4 | +| 开源 | Baichuan2-7B-Chat | 88 | 76 | 83.3 | 69 | 79.1 | +| 商用 | 阿里通义千问 | 81 | 81 | 81.0 | 73 | 79.0 | +| 开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 77 | 78.7 | +| 开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 76 | 76.8 | +| 开源 | xverse-13b-chat | 86 | 72 | 81.3 | 67 | 76.6 | +| 商用 | chatglm-std | 84 | 71 | 76.0 | 73 | 76.0 | +| 商用 | chatglm-pro | 84 | 70 | 76.0 | 73 | 75.8 | +| 商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 69 | 75.5 | +| 开源 | openbuddy-mistral-7b-v13.1 | 79 | 72 | 73.3 | 76 | 75.1 | +| 商用 | chatglm-130b-v1 | 82 | 76 | 72.7 | 68 | 74.7 | +| 开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 60 | 74.3 | +| 商用 | 360智脑 | 86 | 71 | 74.0 | 66 | 74.3 | +| 开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 69 | 73.6 | +| 开源 | Qwen-7B-Chat | 89 | 72 | 74.0 | 59 | 73.5 | +| 商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 65 | 72.8 | +| 开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 67 | 72.7 | +| 开源 | chatglm3-6b | 82 | 68 | 78.7 | 60 | 72.2 | +| 开源 | tulu-30b | 76 | 76 | 75.3 | 61 | 72.1 | +| 开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 69 | 71.2 | +| 开源 | internlm-chat-20b | 74 | 64 | 77.3 | 64 | 69.8 | +| 开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 58 | 69.8 | +| 开源 | belle-llama-7b-2m | 76 | 64 | 71.3 | 59 | 67.6 | +| 开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 57 | 67.3 | +| 开源 | ziya2-13b-chat | 76 | 54 | 71.3 | 68 | 67.3 | +| 开源 | linly-chatflow-13b | 72 | 63 | 74.7 | 59 | 67.2 | +| 开源 | chatglm2-6b | 70 | 68 | 72.0 | 57 | 66.8 | +| 商用 | minimax | 68 | 61 | 73.3 | 63 | 66.3 | +| 开源 | vicuna-33b | 82 | 65 | 63.3 | 54 | 66.1 | +| 开源 | BELLE-on-Open-Datasets | 82 | 62 | 68.7 | 48 | 65.2 | +| 开源 | wizardlm-13b | 68 | 52 | 72.0 | 48 | 60.0 | +| 开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 53 | 59.0 | +| 开源 | AquilaChat-7B | 70 | 51 | 56.0 | 55 | 58.0 | +| 开源 | phoenix-inst-chat-7b | 82 | 62 | 71.3 | / | / | +| 商用 | 微软new-bing | 82 | 44 | 76.0 | / | / |

diff --git a/pic/classification.png b/pic/classification.png index 843e843..23941d8 100644 Binary files a/pic/classification.png and b/pic/classification.png differ diff --git a/pic/extract.png b/pic/extract.png index 290a479..9b3fda4 100644 Binary files a/pic/extract.png and b/pic/extract.png differ diff --git a/pic/mrc.png b/pic/mrc.png index a2f3e77..59205a3 100644 Binary files a/pic/mrc.png and b/pic/mrc.png differ diff --git a/pic/tableQA.png b/pic/tableQA.png index e5379ec..4106f79 100644 Binary files a/pic/tableQA.png and b/pic/tableQA.png differ diff --git a/pic/total.png b/pic/total.png index 5f3d246..674b926 100644 Binary files a/pic/total.png and b/pic/total.png differ