何发
文章学习-2025-1-20
文章学习-2025-1-21
文章学习-2025-1-22
文章学习-2025-1-23
文章学习-2025-1-24
文章学习-2025-1-25
文章学习-2025-1-26
文章学习-2025-1-27
文章学习-2025-1-28
文章学习-2025-1-29
文章学习-2025-1-30
文章学习-2025-1-31
文章学习-2025-2-1
文章学习-2025-2-2
文章学习-2025-2-3
文章学习-2025-2-4
文章学习-2025-2-5
文章学习-2025-2-6
文章学习-2025-2-7
文章学习-2025-2-8
文章学习-2025-2-9
文章学习-2025-2-10
文章学习-2025-2-11
文章学习-2025-2-12
文章学习-2025-2-13
文章学习-2025-2-14
文章学习-2025-2-15
文章学习-2025-2-16
文章学习-2025-2-17
文章学习-2025-2-18
文章学习-2025-2-19
文章学习-2025-2-20
文章学习-2025-2-21
文章学习-2025-2-22
文章学习-2025-2-23
文章学习-2025-2-24
文章学习-2025-2-25
文章学习-2025-2-26
文章学习-2025-2-27
文章学习-2025-2-28
文章学习-2025-3-1
文章学习-2025-3-2
文章学习-2025-3-3
文章学习-2025-3-4
文章学习-2025-3-5
文章学习-2025-3-6
文章学习-2025-3-7
文章学习-2025-3-8
文章学习-2025-3-9
文章学习-2025-3-10
文章学习-2025-3-11
文章学习-2025-3-12
文章学习-2025-3-13
文章学习-2025-3-14
文章学习-2025-3-15
文章学习-2025-3-16
文章学习-2025-3-17
文章学习-2025-3-18
文章学习-2025-3-19
文章学习-2025-3-20
文章学习-2025-3-21
文章学习-2025-3-22
文章学习-2025-3-23
文章学习-2025-3-24
文章学习-2025-3-25
文章学习-2025-3-26
文章学习-2025-3-27
文章学习-2025-3-28
文章学习-2025-3-29
文章学习-2025-3-30
文章学习-2025-3-31
文章学习-2025-4-1
文章学习-2025-4-2
文章学习-2025-4-3
文章学习-2025-4-4
文章学习-2025-4-5
文章学习-2025-4-6
文章学习-2025-4-7
文章学习-2025-4-8
文章学习-2025-4-9
文章学习-2025-4-10
文章学习-2025-4-11
文章学习-2025-4-12
文章学习-2025-4-13
文章学习-2025-4-14
文章学习-2025-4-15
文章学习-2025-4-16
文章学习-2025-4-17
文章学习-2025-4-18
文章学习-2025-4-19
文章学习-2025-4-20
文章学习-2025-4-21
文章学习-2025-4-22
文章学习-2025-4-23
文章学习-2025-4-24
文章学习-2025-4-25
文章学习-2025-4-26
文章学习-2025-4-27
文章学习-2025-4-28
文章学习-2025-4-29
文章学习-2025-4-30
文章学习-2025-5-1
文章学习-2025-5-2
文章学习-2025-5-3
文章学习-2025-5-4
文章学习-2025-5-5
文章学习-2025-5-6
文章学习-2025-5-7
文章学习-2025-5-8
文章学习-2025-5-9
文章学习-2025-5-10
文章学习-2025-5-11
文章学习-2025-5-12
文章学习-2025-5-13
文章学习-2025-5-14
文章学习-2025-5-15
文章学习-2025-5-16
文章学习-2025-5-17
文章学习-2025-5-18
文章学习-2025-5-19
文章学习-2025-5-20
文章学习-2025-5-21
文章学习-2025-5-22
文章学习-2025-5-23
文章学习-2025-5-24
本文档使用 MrDoc 发布
-
+
首页
文章学习-2025-2-3
## 第一篇文章 #### 名称:DeepSeek R1:通过强化学习提升推理能力 #### 链接:https://arxiv.org/pdf/2501.12948v1 #### 总结:该文章提出了一种基于强化学习(而非传统监督学习)的方法来提升大型语言模型的推理能力。DeepSeek-R1模型通过大规模强化学习显著提升了在数学和逻辑推理任务中的表现,同时引入冷启动数据和多阶段训练流程来优化模型的可读性和性能。 ## 第二篇文章 #### 名称:DeepSeek-V3:高效的混合专家模型 #### 链接:https://arxiv.org/abs/2412.1943714 #### 总结:DeepSeek-V3是一款总参数量为671B的混合专家(MoE)语言模型,每个token激活37B参数。该模型采用无辅助损失的负载均衡策略和多令牌预测(MTP)训练目标,支持FP8混合精度训练,显著降低了训练成本。 ## 第三篇文章 #### 名称:DeepSeek-LLM:以长期主义扩展开源语言模型 #### 链接:https://arxiv.org/pdf/2401.02954 #### 总结:文章从长期主义视角出发,提出了开源语言模型的发展策略,推动技术民主化。DeepSeek-LLM基于Transformer架构,采用分组查询注意力(GQA)优化推理成本,并支持多步学习率调度器提升训练效率。
admin
2025年2月3日 22:38
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码