混合精度下位置编码竟有大坑，LLaMA等主流开源基本概念纷纷中招

时间：2024-01-18 12:19:26

口为120人效用对比

融合精准度下方位XML的bug从后面的搜索算法原理之当年，不管是RoPE 的 cos(m heta) 还是alibi 的 i-1（m, i 值得一提的是postion id), 都必需为每个方位转换成一个常量的position_id, 在实例后台比较大的时候，子安计数机系统发掘出有以外另类的方位XML借助于在融合精准度下都实际上因为高于精准度（float16/bfloat16)小数透露精准度不足避免方位XML冲撞的原因。尤其当数学模型操练（解谜）时实例阔度愈加粗大，高于精准度透露助粗大的方位XML冲撞原因愈加轻微，进而不良影响数学模型的效用，一个大以bfloat16为例来明确指出有这个 bug

小数透露精准度

小数在计数机之当年透露由大写字母位（sign)，百分比位(exponent)，二进位位(fraction) 三大部分均是由, 对于一个基本上的数最大值透露，可以由如下公式来计数其值得一提的是的数最大值（其之当年offset是百分比位的反向）：由公式应为，二进位位的阔度决定了小数的透露精准度。深度修习之当年近似于的 float32/float16/bfloat16 内存之当年的透露分别如下绘出有附出处：

绘出有6-bfloat16 的透露XML

绘出有7-float16 的透露XML

绘出有8-float32 的透露XML

可以看着可以看着float16和bfloat16相较于float32都战死沙场了透露的精准度，后续以bfloat16为例明确指出有方位XML之当年实际上的原因（float16同理）。下表展览了bfloat16在各不相同数最大值范围（只截取乘法大部分）内的透露精准度

Min

Max

Interval

2请出处意(-7)

2请出处意(-6)

2请出处意(-5)

2请出处意(-4)

2请出处意(-3)

2请出处意(-2)

128

2请出处意(-1)

128

256

512

1024

2048

4096

8192

16384

32768

128

可以看着当乘法范围超过256，bfloat16就不会精准透露每一个乘法，我们可以用code测试一下透露精准度助粗大的原因

RoPEBrown Alibi XML的原因MetaDebian的llama数学模型引入了RoPE的方位XML方式为，公开的借助于（以及大大部分的第三方llama当年传数学模型）在bfloat16下实际上精准度原因助粗大的方位XML冲撞（各不相同方位的token在bfloat16下变成同一个数）。llama公开code如下：后面第18行基本一句根据可用序列阔度转换成每个方位的 positon idx在bfloat16 下消除方位冲撞在实际操练时如果开了bfloat16, self.inv_freq的 dtype时会被转为bfloat16, 我们可以通过有用的code来看一下方位冲撞的原因

绘出有9-bfloat16方位冲撞示意绘出有

根据bfloat16的透露精准度应为，操练（解谜）时实例阔度越多粗大，方位XML冲撞的情况越多轻微，阔度为8192的实例解谜之当年，有数大约10%的token方位XML是精准的，好在方位XML冲撞有局域连续性的人格特质，只有若干个相邻的token才时会资源共享同一个position Embedding, 在更大的连续性上，各不相同方位的token 还是有一定的区分连续性。

绘出有10-各不相同实例后台下方位XML精准token所占比例

除了RoPE方位XML拟议，子安计数机系统发掘出有 Alibi 方位XML也实际上上述原因，原因几乎在于转换成乘法的方位数据库时时会在高于精准度下消除冲撞原因。

修补拟议

RoPE修补

RoPE 的修补比较有用，只必需保证在转换成 position_id的时候一定在float32的精准度上亦可。忽略：float32的tensor register_buffer后在操练时如果掀开了bfloat16, 也时会被转为bfloat16

Alibi修补

Alibi方位XML修补思路和RoPE的修补思路一致，但因为Alibi的 attention bias直接叫作 attention matrix后面，如果按照后面的修补思路，attention matrix的并不一定需和attention bias 一致，避免整个attention的计数都在float32并不一定上计数，这时会更为大的拖慢操练平均速度以外另类的attention加速新方法flashattention不支持 attention bias模板，而 xformers承诺attention bias并不一定需与query.dtype相同，因此像RoPE那样有用的将attention bias并不一定增强到float32将时会更为大的拖慢操练平均速度针对该原因子安计数机系统设想有了一种一新Alibi attention拟议，整个attention bias几乎在bfloat16并不一定上，类似于sinusoidal的远程极化人格特质，我们须要保证临近token方位XML的准确连续性，对于比较半径过远的的token我们则可以强加其消除一定的方位冲撞。取而代之的Alibi借助于则相反，比较半径越多远的token透露越多精准，比较半径越多近的token 则时会冲撞

绘出有11- 修补当年后alibi attention_bias对照

修补效用此处更为少在解谜阶段对方位XML的精准度原因顺利进行修补【出处：操练阶段显然也实际上原因，取决于操练的说明配置和新方法】，可以看着：在粗大实例的解谜之当年，数学模型的ppl 要很大优于修补当年的pplBenchmark上检测整体而言修补当年后各不相同点不小，显然是因为benchmark上检测文本阔度受限制，很少触发Position embedding的冲撞

Benchmark对比

Perplexity对比

在统一标准的文本反馈上对简化当年后数学模型在之当年英文文本上的疑惑度顺利进行检测，效用如下：

参考资料：

Dongxu Zhang, Brown Dong Wang. (2015). Relation Classification via Recurrent Neural Network.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Brown Illia Polosukhin. (2023). Attention Is All You Need.

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Brown Ruslan Salakhutdinov. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Brown Peter J. Liu. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.

Hugo Touvron, Thibaut Lril, Gautier Izacard, Xier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Gre, Brown Guillaume Lample. (2023). LLaMA: Open and Efficient Foundation Language Models.

Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Brown Yunfeng Liu. (2022). RoFormer: Enhanced Transformer with Rotary Position Embedding.

Ofir Press, Noah A. Smith, Brown Mike Lewis. (2022). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation.

Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishr Chaudhary, Xia Song, Brown Furu Wei. (2022). A Length-Extrapolatable Transformer.

_architecture_positional_encoding/

Shouyuan Chen, Sherman Wong, Liangjian Chen, Brown Yuandong Tian. (2023). Extending Context Window of Large Language Models via Positional Interpolation.

_scaled_rope_allows_llama_models_to_he/

— 完了 —

量子位 QbitAI · 新闻号签约

。

缓解打鼾最有效的方法
类风湿吃艾拉莫德片好不好
胃反酸应该吃什么药
拉肚子吃什么东西能止泻
医学医药新闻

上一篇：向前孕育！长虹自在屏CHiQ ME闪耀亮相奥维云网2022数字生态大会

下一篇：上海耻辱！与32名下属偷情，疯狂敛财1.36亿，指摘：就爱中年妇女