FastGen和split-fuse——23年12月deepspeed的加速方法

vllm从orca那抄到的连续批处理有缺点，它期望“在batch里动态卸载、加载序列”，也确实做到了，但是prefill和decoder俩阶段的计算方法不一样，前者一次性算出来，后者一个一个吐出来，两个的操作方法不同导致消耗的时间不同。显然，花费的时间仍然要看最长prefill token数，还是浪费算力。回看orca，它没有分prefill和decode，当前batch所有序列该推哪步推哪步，第

蒸土豆的技术细节

610人浏览 · 2024-10-08 12:03:32

蒸土豆的技术细节 · 2024-10-08 12:03:32 发布

vllm从orca那抄到的连续批处理有缺点，它期望“在batch里动态卸载、加载序列”，也确实做到了，但是prefill和decoder俩阶段的计算方法不一样，前者一次性算出来，后者一个一个吐出来，两个的操作方法不同导致消耗的时间不同。理论上prefill多少个token都与decode 1个token时间一样，但是由于计算能力受限，prefill最多计算n个token，再多就超过decode 1个token的时间了，split-fuse就是做了这个优化。
回看orca，它没有分prefill和decode，当前batch所有序列该推哪步推哪步，第1个序列要prefill，第2个要decode，那就必须它俩都算完再计算下一步。
orca的缺点是其他decode总要等prefill，导致算力浪费。
vllm设立抢占式，基础操作是decode，抢占者是prefill，如果当前batch里申请prefill的序列多过m个，则下一步要同时做prefill和docode。显然，花费的时间仍然要看最长prefill token数，还是浪费算力。

优点：大幅减小首字输出时间。
缺点：整体推理速度下降，并发提升到后期的吞吐量会上升较慢，每个token的延迟也会增加。

九章云极普惠算力

更多推荐

使用Claude Code Action进行依赖管理：自动更新与安全检查的终极指南

在现代软件开发中，依赖管理是确保项目安全与稳定性的关键环节。Claude Code Action作为一款强大的GitHub Action工具，能够自动化处理依赖更新和安全检查，帮助开发者轻松维护健康的项目依赖生态。本文将详细介绍如何利用Claude Code Action实现依赖的自动更新与安全检查，让你的项目保持最新状态并远离安全漏洞。## 为什么依赖管理至关重要？依赖管理不仅仅是保持库

九章云极普惠算力

BigDL语言学研究：探索语言演化与方言识别的创新模型

在当今人工智能快速发展的时代，自然语言处理技术正深刻改变着我们与语言交互的方式。BigDL作为一款强大的深度学习框架，不仅在通用AI领域表现卓越，更在语言学研究领域开辟了新的可能性。本文将深入探讨BigDL如何助力语言演化分析与方言识别模型的构建，为语言研究提供高效、准确的技术支持。## 语言演化研究的技术挑战语言作为人类文明的重要载体，其演化过程复杂而微妙。传统的语言演化研究主要依赖于历

九章云极普惠算力

posting代码质量：终端工具的测试覆盖率与代码规范

在软件开发领域，高质量的代码是项目成功的关键。对于像posting这样的现代化终端HTTP客户端工具来说，保持代码质量尤为重要。本文将深入探讨posting项目如何通过完善的测试策略和代码规范，确保终端工具的稳定性和可靠性。## 测试覆盖率：保障终端工具稳定性的关键posting项目采用了全面的测试策略，以确保其在各种使用场景下的稳定性。项目使用pytest作为主要测试框架，结合pytes