林夕笔记林夕笔记
首页
关于我
首页
关于我
  • 人工智能

    • 深度求索 [DeepSeek]

      • 基础了解
        • 一,大模型的参数量
        • 二,大模型的量化
        • 三,大模型的蒸馏
      • 本地部署
      • 模型微调
    • JavaScript高级

基础了解

简介

DeepSeek 中文名「深度求索」,是一家专注实现通用人工智能(以大模型为代表)的科技公司。它由量化资管巨头「幻方量化」创立于 2023 年 7 月。
DeepSeek 已经发布 13 个大模型,并且都已开源。全球开发者都能使用 DeepSeek 的技术开发自己的模型、应用、产品。

一,大模型的参数量

我们经常会看到大模型后面,会跟一个奇怪的后缀,如:

DeepSeek-R1 - 1.5b
DeepSeek-R1 - 7b
DeepSeek-R1 - 8b
DeepSeek-R1 - 32b
DeepSeek-R1 - 70b

Tips

在大模型里面,有一个极其重要的概念,叫:参数量。
b是英文billion的简写,意思是十亿。7b就是70亿,8b就是80亿,是指大模型的神经元参数(权重参数weight+bias)的总量。

二,大模型的量化

通过降低模型参数的精度来减少模型存储需求和计算复杂度的技术,同时尽量保持模型的性能 [在不明显损失效果的前提下,降低显存,提高推理速度]DeepSeek中的Q2、Q4、Q8是指模型量化精度不同的版本

Q2:表示量化精度为2位,即使用2位整数来表示原来的浮点数。
Q4:表示量化精度为4位,即使用4位整数来表示原来的浮点数。
Q8:表示量化精度为8位,即使用8位整数来表示原来的浮点数。

Tips

量化可以减少模型的参数精度,从而减少模型的存储空间和计算需求。不同量化精度的模型在显存占用和性能上会有所不同:
显存占用‌:量化精度越低,模型占用的显存越小。例如,Q8版本的模型占用的显存比Q4版本更小。
性能差异‌:虽然量化会降低模型的精度,但在某些情况下,性能的提升可能会超过精度的损失。例如,Q8版本的模型在显存占用更小的情况下,性能可能仍然优于高精度的模型版本。

三,大模型的蒸馏

是一种在机器学习和深度学习中使用的模型压缩技术,目的是在保留模型性能的前提下,将复杂的“大”模型简化成更小、更高效的模型。这个过程涉及将一个称为“教师模型(Teacher Model)”的大模型中的知识传递给一个较小的“学生模型(Student Model)”。

Tips

DeepSeek-R1-Distill-Qwen-7B,就是在Qwen架构上进行蒸馏得到的模型;[Qwen在数学推理、编程等领域表现出色,适用于更广泛的应用场景。它在多个基准测试中表现优异,尤其是在数学、编程和聊天任务]
DeepSeek-R1-Distill-Llama-8B,就是在Llama架构上进行蒸馏得到的模型;[Llama在自然语言处理任务,如文本生成、对话系统和问答等表现良好。但它在数学推理、编程和聊天任务上不如Qwen]

Next
本地部署