拆分成多篇文章；添加 [LLM底座模型对比]

2024-06-19 10:03:50 +08:00
parent 8dcdd07f3b
commit 1c2f976567
4 changed files with 310 additions and 268 deletions
--- a/README.md
+++ b/README.md
@@ -2,274 +2,10 @@

 > 更适合中国宝宝体质的大模型百科全书

-[toc]
+## 目录 Table Of Contents

-## 模型评测与排行榜
+[市面上的大模型](./docs/big-model-list.md)

-SuperCLUE总排行榜：https://www.superclueai.com/
+[模型评测与排行榜](./docs/big-model-rank-list.md)

-大模型综合能力评测对比表：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
-
-大模型编程能力评测对比表：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard
-
-
-
-## 市面上的大模型
-
-### OpenAI / GPT-4-Turbo-0125
-
-发布机构：OpenAI
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-是否开源：否
-
-### GPT-4-Turbo-0409
-
-发布机构：OpenAI
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### GPT-4(官网)
-
-发布机构：OpenAI
-
-使用方式：网页
-
-发布日期：2024-04-30 (待确认)
-
-### Claude3-Opus
-
-发布机构：Anthropic
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Baichuan3
-
-发布机构：百川智能
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### GLM-4	清华
-
-发布机构：智谱AI
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 通义千问2.1
-
-发布机构：阿里巴巴
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 腾讯Hunyuan-pro
-
-发布机构：腾讯
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 文心一言4.0
-
-发布机构：百度
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### MoonShot(Kimichat)
-
-发布机构：月之暗面
-
-使用方式：网页
-
-发布日期：2024-04-30 (待确认)
-
-### 从容大模型V1.5
-
-发布机构：云从科技
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### MiniMax-abab6.1
-
-发布机构：稀宇科技
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 山海大模型
-
-发布机构：云知声
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 讯飞星火V3.5
-
-发布机构：科大讯飞
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Llama-3-70B-Instruct(poe)
-
-发布机构：Meta
-
-使用方式：网页
-
-发布日期：2024-04-30 (待确认)
-
-### 阶跃星辰step-1-32k
-
-发布机构：阶跃星辰
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### qwen-1.5-72b-chat
-
-发布机构：阿里巴巴
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 云雀大模型
-
-发布机构：字节跳动
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### 360gpt-pro
-
-发布机构：360
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### GPT3.5-Turbo-0125
-
-发布机构：OpenAI
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Gemini-Pro
-
-发布机构：Google
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### qwen-1.5-14b-chat
-
-发布机构：阿里巴巴
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Llama-3-8B-Instruct
-
-发布机构：Meta
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### XVERSE-13B-L
-
-发布机构：元象科技
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### qwen-1.5-7B-Chat
-
-发布机构：阿里巴巴
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Llama-3-70B-Instruct(千帆)
-
-发布机构：Meta
-
-使用方式：API
-
-发布日期：2024-04-30 (待确认)
-
-### Baichuan2-13B-Chat-v2
-
-发布机构：百川智能
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### ChatGLM3-6B	清华
-
-发布机构：智谱AI
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### Gemma-7b-it
-
-发布机构：Google
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### Chinese-Alpaca2-13B
-
-发布机构：Meta
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### Llama2-13B-Chat
-
-发布机构：Meta
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
-
-### Llama2-7B-Chat
-
-发布机构：Meta
-
-使用方式：模型
-
-发布日期：2024-04-30 (待确认)
+[LLM底座模型对比](./docs/LLM-base-model-comparison.md)
--- a/docs/LLM-base-model-comparison.md
+++ b/docs/LLM-base-model-comparison.md
@@ -0,0 +1,37 @@
+## LLM底座模型对比
+
+> LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT结构对比
+
+### LLaMA结构（Long-term Language Modeling Architecture）
+
+LLaMA结构是一种基于Transformer的大型语言模型架构。LLaMA模型的主要特点是采用较长的上下文信息，通过引入多头自注意力机制和位置编码，有效地捕获输入序列中的长程依赖关系。此外，LLaMA模型还采用分层交叉注意力机制，进一步增强了模型的表达能力和泛化性能。
+
+### Palm结构（Parametric Language Model）
+
+Palm结构是一种基于深度神经网络的自然语言处理模型。Palm模型的创新之处在于引入了参数化语言建模的思想，通过将语言规则编码为神经网络参数，实现自然语言处理任务的建模和推理。此外，Palm模型还采用了动态神经网络结构，使模型具备更好的可解释性和可扩展性。
+
+### GLM结构（Generative Language Model）
+
+GLM结构是一种基于自回归生成模型的自然语言处理模型。GLM模型以Transformer架构为底层，通过反向传播算法进行训练，利用生成式对抗网络进行采样，实现文本生成。此外，GLM模型还采用了多任务学习策略，使模型在多个自然语言处理任务上均具有优良的性能。
+
+### BLOOM结构（Bidirectional Language Model）
+
+BLOOM结构是一种基于双通道语言模型的自然语言处理模型。BLOOM模型同时从左到右和从右到左两个方向上捕捉输入文本中的上下文信息，有效解决了传统单通道语言模型在处理长程依赖关系时的局限性。此外，BLOOM模型还采用了轻量级的网络结构和知识蒸馏技术，大大减少了模型训练的参数量和计算成本。
+
+### GPT结构（Generative Pre-trained Transformer）
+
+GPT结构是一种基于自回归语言模型的自监督学习框架。GPT模型以Transformer架构为底层，通过反向传播算法进行训练，利用生成式对抗网络进行采样，实现文本生成。GPT模型在训练过程中采用大规模的无标签文本数据，通过预测下一个词的概率来预训练模型，使模型具备强大的文本生成能力。
+
+### 对比分析
+
+从以上介绍可以看出，LLM底座模型的LLaMA、Palm、GLM、BLOOM和GPT结构各有其特点和应用优势。
+
+- LLaMA模型擅长捕获长程依赖关系，适用于解决较长的上下文信息问题；
+- Palm模型则注重自然语言处理任务的可解释性和可扩展性，将语言规则编码为神经网络参数；
+- GLM模型采用多任务学习策略，使模型在多个自然语言处理任务上均具有优良的性能；
+- BLOOM模型则通过双通道机制解决了传统单通道模型的局限性，使模型更好地处理长程依赖关系；
+- GPT模型则通过自监督学习框架，利用生成式对抗网络进行采样，实现文本生成，具有强大的文本生成能力。
+
+### 参考资料
+
+- [LLM底座模型对比：LLaMA、Palm、GLM、BLOOM与GPT结构分析](https://developer.baidu.com/article/details/1872864)
--- a/docs/big-model-list.md
+++ b/docs/big-model-list.md
@@ -0,0 +1,262 @@
+
+## 市面上的大模型
+
+[toc]
+
+### OpenAI / GPT-4-Turbo-0125
+
+发布机构：OpenAI
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+是否开源：否
+
+### GPT-4-Turbo-0409
+
+发布机构：OpenAI
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### GPT-4(官网)
+
+发布机构：OpenAI
+
+使用方式：网页
+
+发布日期：2024-04-30 (待确认)
+
+### Claude3-Opus
+
+发布机构：Anthropic
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Baichuan3
+
+发布机构：百川智能
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### GLM-4	清华
+
+发布机构：智谱AI
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 通义千问2.1
+
+发布机构：阿里巴巴
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 腾讯Hunyuan-pro
+
+发布机构：腾讯
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 文心一言4.0
+
+发布机构：百度
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### MoonShot(Kimichat)
+
+发布机构：月之暗面
+
+使用方式：网页
+
+发布日期：2024-04-30 (待确认)
+
+### 从容大模型V1.5
+
+发布机构：云从科技
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### MiniMax-abab6.1
+
+发布机构：稀宇科技
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 山海大模型
+
+发布机构：云知声
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 讯飞星火V3.5
+
+发布机构：科大讯飞
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Llama-3-70B-Instruct(poe)
+
+发布机构：Meta
+
+使用方式：网页
+
+发布日期：2024-04-30 (待确认)
+
+### 阶跃星辰step-1-32k
+
+发布机构：阶跃星辰
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### qwen-1.5-72b-chat
+
+发布机构：阿里巴巴
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 云雀大模型
+
+发布机构：字节跳动
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### 360gpt-pro
+
+发布机构：360
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### GPT3.5-Turbo-0125
+
+发布机构：OpenAI
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Gemini-Pro
+
+发布机构：Google
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### qwen-1.5-14b-chat
+
+发布机构：阿里巴巴
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Llama-3-8B-Instruct
+
+发布机构：Meta
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### XVERSE-13B-L
+
+发布机构：元象科技
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### qwen-1.5-7B-Chat
+
+发布机构：阿里巴巴
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Llama-3-70B-Instruct(千帆)
+
+发布机构：Meta
+
+使用方式：API
+
+发布日期：2024-04-30 (待确认)
+
+### Baichuan2-13B-Chat-v2
+
+发布机构：百川智能
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### ChatGLM3-6B	清华
+
+发布机构：智谱AI
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### Gemma-7b-it
+
+发布机构：Google
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### Chinese-Alpaca2-13B
+
+发布机构：Meta
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### Llama2-13B-Chat
+
+发布机构：Meta
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
+
+### Llama2-7B-Chat
+
+发布机构：Meta
+
+使用方式：模型
+
+发布日期：2024-04-30 (待确认)
--- a/docs/big-model-rank-list.md
+++ b/docs/big-model-rank-list.md
@@ -0,0 +1,7 @@
+## 模型评测与排行榜
+
+SuperCLUE总排行榜：https://www.superclueai.com/
+
+大模型综合能力评测对比表：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard
+
+大模型编程能力评测对比表：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard