Topk&Topp算子优化¶
背景¶
在自然语言生成任务中,topK和topP采样策略被广泛应用于控制生成文本的多样性和质量。然而,在小模型中,这两种策略的计算耗时相对较长。这主要是由于小模型的参数较少,导致在处理概率分布时,排序和筛选的效率降低,从而影响了生成速度。因此,优化小模型中topK和topP的实现,可以提升其采样效率。
功能介绍¶
topKtopP算子的实现将排序、topK、softmax和topP等多个小算子融合为一个大算子,从而提高了计算效率和性能。
用户接口¶
算子调用API¶
logits: 输入的logits张量,包含模型的输出分数。topK: 用于选择的前K个概率的阈值张量。topP: 用于选择的累积概率的阈值张量。
性能效果¶
- 使用topKtopP融合算子后,在qwen2-0.5B模型中,TTOT 下降37%,TTFT 提升10%。