马林梵多童话镇

总有一条蜿蜒在童话镇里七彩的河.

PEFT LLM 参数高效微调

PEFT: LLM 参数高效微调引言SFT(Supervised Fine-Tuning,监督微调)对于我们并不陌生,在 BERT 时代模型微调就已经大行其道了。微调是深度学习中迁移学习的一种方法,其中预训练模型的权重会在新数据上进行训练。微调可以在整个神经网络上执行,也可以仅在其部分层上执行,此时未进行微调的层会被“冻结”(在反向传播步骤中不更新)。这种方式使得 SFT 适用于在特定领域或......

分层可导航小世界算法(HNSW)

分层可导航小世界算法(HNSW)引言随着大语言模型(LLM)与检索增强生成(RAG)技术的普及与应用,向量数据库的热度持续攀升。当前主流的向量数据库(如 Milvus、Weaviate、Chroma、Elasticsearch 等)均支持 HNSW 这一高效的向量检索算法。本文将对 HNSW 算法的起源进行学习及探讨 正则图和随机图在介绍 NSW 和 HNSW 之前,我们先来了解一下正则图和......

多CUDA版本共存

CUDA 多版本共存引言什么是 CUDA: CUDA(Compute Unified Device Architecture)是 NVIDIA 推出的通用并行计算平台和编程模型,通过利用 GPU 的处理能力提升计算性能,支持C、C++、Python等多种语言编程。CUDA 有两个API:Runtime API、Driver API,分别位于软件栈的不同层级,共同支撑 GPU 并行计算的实现 ......

Elasticsearch 之分页查询

Elasticsearch 之分页查询引言在搜索引擎应用中,分页查询是一种常见需求。Elasticsearch 提供了多种分页方式以应对不同场景。本文将结合实际应用场景,介绍三种常用的分页查询方法 From + Size 分页查询1234567891011121314151617GET /content_item_profile/_search{ "from": 0, "siz......

PDM:下一代 Python 包管理器

PDM:下一代 Python 包管理器引言Python Development Master (PDM) 是一款现代化的 Python 包管理器,旨在提供更高效、更灵活的项目依赖管理解决方案。与传统的包管理器(如 Pipenv、Poetry)不同,PDM 基于 PEP 582(Python 本地包目录)提案,不再强制依赖虚拟环境,从而有效避免了虚拟环境嵌套可能引发的冲突和管理复杂性。PDM ......

NCNN 模型 INT8 量化

NCNN 模型 INT8 量化在移动设备上部署深度学习模型时,模型的推理速度和内存占用是关键考虑因素。NCNN 作为腾讯开源的轻量级神经网络推理框架,为移动端优化提供了强大的支持。其中,INT8 量化技术是提升模型性能、降低资源消耗的重要手段。最近公司刚好也有业务需求,需要在手机端部署数字人,故探索了下 NCNN 的量化。本文将基于 NCNN 官方文档,详细介绍如何将浮点模型 F32 量化为......

FFmpeg 编译安装和静态安装

FFmpeg 编译安装和静态安装简介FFmpeg 是一个领先的多媒体框架,能够解码、编码、转码、复用、解复用、流化、过滤和播放几乎所有人类和机器创建的格式。本指南将详细介绍如何在 CentOS 8.5.2111 系统上从源代码编译并安装 FFmpeg 6.1.1 版本。从源代码编译安装可以确保您获得最新版本的功能,并可以根据您的特定需求进行定制。本博客主要依赖于 manus 生成,我通过 m......

DeepSeek 之 MTP(Multi-Token Prediction)

DeepSeek 之 MTP(Multi-Token Prediction)当前主流的 LLM 主要采用 Decoder-only 为基础的模型结构。这意味着无论是在训练还是推理阶段,序列的生成都是逐个 token 进行的。在生成每个 token 时,模型需要频繁地进行访存操作,加载 KV Cache,往往成为训练或推理过程中的瓶颈。MTP 通过优化解码阶段,可以将单个 token 的生成转......

DeepSeek 之 MoE(Mixture-of-Experts)

DeepSeek 之 MoE(Mixture-of-Experts)DeepSeek 团队通过引入 MoE(Mixture of Experts,混合专家) 机制,以“分而治之”的思想,在模型容量与推理成本之间找到了精妙的平衡点,其中的技术实现和细节值得剖思 Transformer 演变至 MoE标准的 Transformer 层T表示序列长度,Self-Att(·) 表示自注意力模块,FF......

LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-Decoder

LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-DecoderMask 机制在 Transformer 模型中,mask 机制是一种用于在 self-attention 中的技术,用以控制不同 token 之间的注意力交互。 Mask 机制经常被用于NLP任务中,按照作用总体来说可以分成两类 Padding mask(填充掩码) 作用:用于处理非......