1
0
Code Issues Pull Requests Actions Packages Projects Releases Wiki Activity GitHub Gitee

拆分成多篇文章;添加 [LLM底座模型对比]

This commit is contained in:
zhangbk1 2024-06-19 10:03:50 +08:00
parent 8dcdd07f3b
commit 1c2f976567
4 changed files with 310 additions and 268 deletions

272
README.md
View File

@ -2,274 +2,10 @@
> 更适合中国宝宝体质的大模型百科全书
[toc]
## 目录 Table Of Contents
## 模型评测与排行榜
[市面上的大模型](./docs/big-model-list.md)
SuperCLUE总排行榜https://www.superclueai.com/
[模型评测与排行榜](./docs/big-model-rank-list.md)
大模型综合能力评测对比表https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
大模型编程能力评测对比表https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard
## 市面上的大模型
### OpenAI / GPT-4-Turbo-0125
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
是否开源:否
### GPT-4-Turbo-0409
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
### GPT-4(官网)
发布机构OpenAI
使用方式:网页
发布日期2024-04-30 (待确认)
### Claude3-Opus
发布机构Anthropic
使用方式API
发布日期2024-04-30 (待确认)
### Baichuan3
发布机构:百川智能
使用方式API
发布日期2024-04-30 (待确认)
### GLM-4 清华
发布机构智谱AI
使用方式API
发布日期2024-04-30 (待确认)
### 通义千问2.1
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### 腾讯Hunyuan-pro
发布机构:腾讯
使用方式API
发布日期2024-04-30 (待确认)
### 文心一言4.0
发布机构:百度
使用方式API
发布日期2024-04-30 (待确认)
### MoonShot(Kimichat)
发布机构:月之暗面
使用方式:网页
发布日期2024-04-30 (待确认)
### 从容大模型V1.5
发布机构:云从科技
使用方式API
发布日期2024-04-30 (待确认)
### MiniMax-abab6.1
发布机构:稀宇科技
使用方式API
发布日期2024-04-30 (待确认)
### 山海大模型
发布机构:云知声
使用方式API
发布日期2024-04-30 (待确认)
### 讯飞星火V3.5
发布机构:科大讯飞
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-70B-Instruct(poe)
发布机构Meta
使用方式:网页
发布日期2024-04-30 (待确认)
### 阶跃星辰step-1-32k
发布机构:阶跃星辰
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-72b-chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### 云雀大模型
发布机构:字节跳动
使用方式API
发布日期2024-04-30 (待确认)
### 360gpt-pro
发布机构360
使用方式API
发布日期2024-04-30 (待确认)
### GPT3.5-Turbo-0125
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
### Gemini-Pro
发布机构Google
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-14b-chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-8B-Instruct
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### XVERSE-13B-L
发布机构:元象科技
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-7B-Chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-70B-Instruct(千帆)
发布机构Meta
使用方式API
发布日期2024-04-30 (待确认)
### Baichuan2-13B-Chat-v2
发布机构:百川智能
使用方式:模型
发布日期2024-04-30 (待确认)
### ChatGLM3-6B 清华
发布机构智谱AI
使用方式:模型
发布日期2024-04-30 (待确认)
### Gemma-7b-it
发布机构Google
使用方式:模型
发布日期2024-04-30 (待确认)
### Chinese-Alpaca2-13B
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### Llama2-13B-Chat
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### Llama2-7B-Chat
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
[LLM底座模型对比](./docs/LLM-base-model-comparison.md)

View File

@ -0,0 +1,37 @@
## LLM底座模型对比
> LLM底座模型LLaMA、Palm、GLM、BLOOM、GPT结构对比
### LLaMA结构Long-term Language Modeling Architecture
LLaMA结构是一种基于Transformer的大型语言模型架构。LLaMA模型的主要特点是采用较长的上下文信息通过引入多头自注意力机制和位置编码有效地捕获输入序列中的长程依赖关系。此外LLaMA模型还采用分层交叉注意力机制进一步增强了模型的表达能力和泛化性能。
### Palm结构Parametric Language Model
Palm结构是一种基于深度神经网络的自然语言处理模型。Palm模型的创新之处在于引入了参数化语言建模的思想通过将语言规则编码为神经网络参数实现自然语言处理任务的建模和推理。此外Palm模型还采用了动态神经网络结构使模型具备更好的可解释性和可扩展性。
### GLM结构Generative Language Model
GLM结构是一种基于自回归生成模型的自然语言处理模型。GLM模型以Transformer架构为底层通过反向传播算法进行训练利用生成式对抗网络进行采样实现文本生成。此外GLM模型还采用了多任务学习策略使模型在多个自然语言处理任务上均具有优良的性能。
### BLOOM结构Bidirectional Language Model
BLOOM结构是一种基于双通道语言模型的自然语言处理模型。BLOOM模型同时从左到右和从右到左两个方向上捕捉输入文本中的上下文信息有效解决了传统单通道语言模型在处理长程依赖关系时的局限性。此外BLOOM模型还采用了轻量级的网络结构和知识蒸馏技术大大减少了模型训练的参数量和计算成本。
### GPT结构Generative Pre-trained Transformer
GPT结构是一种基于自回归语言模型的自监督学习框架。GPT模型以Transformer架构为底层通过反向传播算法进行训练利用生成式对抗网络进行采样实现文本生成。GPT模型在训练过程中采用大规模的无标签文本数据通过预测下一个词的概率来预训练模型使模型具备强大的文本生成能力。
### 对比分析
从以上介绍可以看出LLM底座模型的LLaMA、Palm、GLM、BLOOM和GPT结构各有其特点和应用优势。
- LLaMA模型擅长捕获长程依赖关系适用于解决较长的上下文信息问题
- Palm模型则注重自然语言处理任务的可解释性和可扩展性将语言规则编码为神经网络参数
- GLM模型采用多任务学习策略使模型在多个自然语言处理任务上均具有优良的性能
- BLOOM模型则通过双通道机制解决了传统单通道模型的局限性使模型更好地处理长程依赖关系
- GPT模型则通过自监督学习框架利用生成式对抗网络进行采样实现文本生成具有强大的文本生成能力。
### 参考资料
- [LLM底座模型对比LLaMA、Palm、GLM、BLOOM与GPT结构分析](https://developer.baidu.com/article/details/1872864)

262
docs/big-model-list.md Normal file
View File

@ -0,0 +1,262 @@
## 市面上的大模型
[toc]
### OpenAI / GPT-4-Turbo-0125
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
是否开源:否
### GPT-4-Turbo-0409
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
### GPT-4(官网)
发布机构OpenAI
使用方式:网页
发布日期2024-04-30 (待确认)
### Claude3-Opus
发布机构Anthropic
使用方式API
发布日期2024-04-30 (待确认)
### Baichuan3
发布机构:百川智能
使用方式API
发布日期2024-04-30 (待确认)
### GLM-4 清华
发布机构智谱AI
使用方式API
发布日期2024-04-30 (待确认)
### 通义千问2.1
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### 腾讯Hunyuan-pro
发布机构:腾讯
使用方式API
发布日期2024-04-30 (待确认)
### 文心一言4.0
发布机构:百度
使用方式API
发布日期2024-04-30 (待确认)
### MoonShot(Kimichat)
发布机构:月之暗面
使用方式:网页
发布日期2024-04-30 (待确认)
### 从容大模型V1.5
发布机构:云从科技
使用方式API
发布日期2024-04-30 (待确认)
### MiniMax-abab6.1
发布机构:稀宇科技
使用方式API
发布日期2024-04-30 (待确认)
### 山海大模型
发布机构:云知声
使用方式API
发布日期2024-04-30 (待确认)
### 讯飞星火V3.5
发布机构:科大讯飞
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-70B-Instruct(poe)
发布机构Meta
使用方式:网页
发布日期2024-04-30 (待确认)
### 阶跃星辰step-1-32k
发布机构:阶跃星辰
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-72b-chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### 云雀大模型
发布机构:字节跳动
使用方式API
发布日期2024-04-30 (待确认)
### 360gpt-pro
发布机构360
使用方式API
发布日期2024-04-30 (待确认)
### GPT3.5-Turbo-0125
发布机构OpenAI
使用方式API
发布日期2024-04-30 (待确认)
### Gemini-Pro
发布机构Google
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-14b-chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-8B-Instruct
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### XVERSE-13B-L
发布机构:元象科技
使用方式API
发布日期2024-04-30 (待确认)
### qwen-1.5-7B-Chat
发布机构:阿里巴巴
使用方式API
发布日期2024-04-30 (待确认)
### Llama-3-70B-Instruct(千帆)
发布机构Meta
使用方式API
发布日期2024-04-30 (待确认)
### Baichuan2-13B-Chat-v2
发布机构:百川智能
使用方式:模型
发布日期2024-04-30 (待确认)
### ChatGLM3-6B 清华
发布机构智谱AI
使用方式:模型
发布日期2024-04-30 (待确认)
### Gemma-7b-it
发布机构Google
使用方式:模型
发布日期2024-04-30 (待确认)
### Chinese-Alpaca2-13B
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### Llama2-13B-Chat
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)
### Llama2-7B-Chat
发布机构Meta
使用方式:模型
发布日期2024-04-30 (待确认)

View File

@ -0,0 +1,7 @@
## 模型评测与排行榜
SuperCLUE总排行榜https://www.superclueai.com/
大模型综合能力评测对比表https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
大模型编程能力评测对比表https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard