模型量化

Transformers量化模型加速推理 —— 以CodeLlama-34b-Instruct-hf为例

前言量化(Quantization)是模型性能优化技术中的一种，在压缩内存的同时可以实现更快速的计算。第三方库 pip install bitsandbytes Step 1 量化模型并保存关键代码 model_name_or_path "codellama/CodeLlama-34b-Instruct-hf" tokenizer_name_or_pa…

TensorRT量化实战课YOLOv7量化：YOLOv7-PTQ量化(一)

目录前言1. YOLOv7-PTQ量化流程2. 准备工作3. 插入QDQ节点3.1 自动插入QDQ节点3.2 手动插入QDQ节点前言手写 AI 推出的全新 TensorRT 模型量化实战课程，链接。记录下个人学习笔记，仅供自己参考。该实战课程主要基于手写 AI 的 Latte 老师所出的 Tens…

量化算子的介绍

量化算子是神经网络量化中的关键组件，它指的是在神经网络模型中将数据从一种精度（通常是浮点精度，如FP32）转换为另一种较低精度（如INT8或INT4）的过程。这种转换使得模型可以在硬件上更高效地运行&#xff0…

YOLOv7-QAT量化部署

目录前言一、QAT量化浅析二、YOLOv7模型训练1. 项目的克隆和必要的环境依赖1.1 项目的克隆1.2 项目代码结构整体介绍1.3 环境安装 2. 数据集和预训练权重的准备2.1 数据集2.2 预训练权重准备 3. 训练模型3.1 修改模型配置文件3.2 修改数据配置文件3.3 训练模型3.4 mAP测试三、…

YOLOv7-PTQ量化部署

目录前言一、PTQ量化浅析二、YOLOv7模型训练1. 项目的克隆和必要的环境依赖1.1 项目的克隆1.2 项目代码结构整体介绍1.3 环境安装 2. 数据集和预训练权重的准备2.1 数据集2.2 预训练权重准备 3. 训练模型3.1 修改模型配置文件3.2 修改数据配置文件3.3 训练模型3.4 mAP测试三、…

1. TensorRT量化的定义及意义

前言手写AI推出的全新TensorRT模型量化课程，链接：TensorRT下的模型量化。课程大纲如下： 1. 量化的定义及意义 1.1 什么是量化？ 定义量化(Quantization)是指将高精度浮点数(如float32)表示为低精度整数(如int8)的过程&…

$《机器学习系统：设计和实现》读后感和一些思考$

《机器学习系统：设计和实现》读后感和一些思考

目录计算图、编译器前端、编译器后端计算图计算图的作用计算图的组成静态计算图与动态计算图编译器前端 IR中间表示机器学习框架的中间表示常见编译器前端优化方法编译器后端概述通用硬件优化：算子拆分和算子融合算子信息数据精度和存储…

【竞赛/TPU】算能TPU编程竞赛总结

如果觉得我的分享有一定帮助，欢迎关注我的微信公众号 “码农的科研笔记”，了解更多我的算法和代码学习总结记录。或者点击链接扫码关注【竞赛/TPU】算能TPU编程竞赛总结 1 基础知识 1.1【Ubuntu】 Ubuntu操作系统中有很多不同的文件夹，每个…

《美团机器学习实践》读后感和一点思考

前言：最近拜读了美团算法团队出品的《美团机器学习实践》，这本书写于2018年，一个大模型还没有标配的时代。这本书侧重于工业界的实践，能清楚地让我们了解到工业界和学术界对机器学习的关注方向上的差异，值得一读。因为…

OpenPPL PPQ量化(5)：执行引擎源码剖析

目录 PPQ Graph Executor(PPQ 执行引擎) PPQ Backend Functions(PPQ 算子库) PPQ Executor(PPQ 执行引擎) Quantize Delegate (量化代理函数) Usage (用法示例) Hook (执行钩子函数) 前面四篇博客其实就讲了下面两行代码： ppq_ir load_onnx_graph(onnx_impor…

TensorRT量化实战课YOLOv7量化：YOLOv7-PTQ量化(二)

目录前言1. YOLOv7-PTQ量化流程2. 模型标定3. 敏感层分析前言手写 AI 推出的全新 TensorRT 模型量化实战课程，链接。记录下个人学习笔记，仅供自己参考。该实战课程主要基于手写 AI 的 Latte 老师所出的 TensorRT下的模型量化，在其课程的基…

2.2 动态范围的常用计算方法

1. 动态范围的常用计算方法动态范围(Dynamic Range)指的是输入数据中数值的范围，计算动态范围是为了确定量化时使用的比特位数(还是抽象😂)。个人理解:考虑到输入数据可能存在数据分布不均，即有些数据偏离过大。而过大的偏离值，会…

Llama2-Chinese项目：1-项目介绍和模型推理

Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示： FlagAl…

【自然语言处理】BitNet b1.58：1bit LLM时代

论文地址：https://arxiv.org/pdf/2402.17764.pdf 相关博客【自然语言处理】BitNet b1.58：1bit LLM时代【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版)…

Llama2通过llama.cpp模型量化 WindowsLinux本地部署

Llama2通过llama.cpp模型量化 Windows&Linux本地部署什么是LLaMA 1 and 2 LLaMA，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求…

16,8和4位浮点数是如何工作的

50年前Kernighan、Ritchie和他们的C语言书的第一版开始，人们就知道单精度“float”类型有32位大小，双精度类型有64位大小。还有一种具有扩展精度的80位“长双精度”类型，这些类型几乎涵盖了浮点数据处理的所有需求。但是在最近几年&#xff0…

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以…

ubuntu系统安装tensorRT-8.6.1版本（2023-8月最新版）

目录前言pip安装可能出现的报错： tar.gz安装前言看了无数教程和b站视频，啊啊啊啊啊啊啊啊啊啊啊tensorRT要我狗命啊。我要写全网tensorRT最全的博客!!! 总体来说成功安装方式有两种，pip安装和tar.gz安装（其实官网安装方式居多…

TensorRT量化实战课YOLOv7量化：YOLOv7-QAT量化

目录前言1. YOLOv7-QAT流程2. QAT训练流程前言手写 AI 推出的全新 TensorRT 模型量化实战课程，链接。记录下个人学习笔记，仅供自己参考。该实战课程主要基于手写 AI 的 Latte 老师所出的 TensorRT下的模型量化，在其课程的基础上&#xff…

PTQ与QAT

对称量化与非对称量化量化分为对称量化与非对称量化。非对称量化含有S和Z，对称量化Z为0，计算公式中只需S，为非饱和量化。动态范围的确认动态范围的确认Max（默认的是对称量化，即不用Z），…

LLM大模型量化原理

大型语言模型（LLM）可以用于文本生成、翻译、问答任务等。但是，LLM 也非常大（显然，大型语言模型）并且需要大量内存。这对于手机和平板电脑等小型设备来说可能具有挑战性。可以将参数乘以所选的精度大小以…

KuiperInfer深度学习推理框架-源码阅读和二次开发(1)：算子开发流程之算子注册

前言：KuiperInfer是一个从零实现一个高性能的深度学习推理库，中文教程已经非常完善了。本系列博客主要是自己学习的一点笔记和二次开发的教程，欢迎更多的AI推理爱好者一起来玩。这篇写一下算子开发流程，重点是算子注册机制和背后的…

TensorRT量化实战课YOLOv7量化：pytorch_quantization介绍

目录前言1. 课程介绍2. pytorch_quantization2.1 initialize函数2.2 tensor_quant模块2.3 TensorQuantizer类2.4 QuantDescriptor类2.5 calib模块总结前言手写 AI 推出的全新 TensorRT 模型量化实战课程，链接。记录下个人学习笔记，仅供自己参考。该…

YOLOv5-PTQ量化部署

目录前言一、PTQ量化浅析二、YOLOv5模型训练1. 项目的克隆和必要的环境依赖1.1 项目克隆1.2 项目代码结构整体介绍1.3 环境安装 2. 数据集和预训练权重的准备2.1 数据集2.2 预训练权重准备 3. 训练模型3.1 修改数据配置文件3.2 修改模型配置文件3.3 训练模型3.4 mAP测试三、Y…

模型量化笔记--对称量化和非对称量化

1–量化映射量化映射的通用公式为: r S ( q − Z ) r S(q - Z) rS(q−Z) 其中r表示量化前数据的真实值，S表示缩放因子，q表示量化后的数值，Z表示零点 2–非对称量化非对称量化需要一个偏移量Z来完成零点的映射，即量化前的零…

模型量化笔记--KL散度量化

KL散度量化前面介绍的非对称量化中，是将数据中的min值和max值直接映射到[-128, 127]。同样的，前面介绍的对称量化是将数据的最大绝对值 ∣ m a x ∣ |max| ∣max∣直接映射到127。上面两种直接映射的方法比较粗暴，而TensorRT中的int8量化…

使用ExLlamaV2量化并运行EXL2模型

量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从…

NLP（六十八）使用Optimum进行模型量化

本文将会介绍如何使用HuggingFace的Optimum，来对微调后的BERT模型进行量化（Quantization）。在文章NLP（六十七）BERT模型训练后动态量化（PTDQ）中，我们使用PyTorch自带的PTDQ&…

【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM

BitNet：用1-bit Transformer训练LLM 《BitNet: Scaling 1-bit Transformers for Large Language Models》论文地址：https://arxiv.org/pdf/2310.11453.pdf 相关博客【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM 【自然语言…