混合精度下位置编码竟有大坑,LLaMA等主流开源基本概念纷纷中招
时间:2024-01-18 12:19:26
小数透露精准度
小数在计数机之当年透露由大写字母位(sign),百分比位(exponent),二进位位(fraction) 三大部分均是由, 对于一个基本上的数最大值透露,可以由如下公式来计数其值得一提的是的数最大值(其之当年offset是百分比位的反向):由公式应为,二进位位的阔度决定了小数的透露精准度。深度修习之当年近似于的 float32/float16/bfloat16 内存之当年的透露分别如下绘出有附出处:绘出有6-bfloat16 的透露XML
绘出有7-float16 的透露XML
绘出有8-float32 的透露XML
可以看着可以看着float16和bfloat16相较于float32都战死沙场了透露的精准度,后续以bfloat16为例明确指出有方位XML之当年实际上的原因(float16同理)。 下表展览了bfloat16在各不相同数最大值范围(只截取乘法大部分)内的透露精准度
Min
Max
Interval
1
2
2请出处意(-7)
2
4
2请出处意(-6)
4
8
2请出处意(-5)
8
16
2请出处意(-4)
16
32
2请出处意(-3)
32
64
2请出处意(-2)
64
128
2请出处意(-1)
128
256
1
256
512
2
512
1024
4
1024
2048
8
2048
4096
16
4096
8192
32
8192
16384
64
16384
32768
128
可以看着当乘法范围超过256,bfloat16就不会精准透露每一个乘法,我们可以用code测试一下透露精准度助粗大的原因
RoPEBrown Alibi XML的原因MetaDebian的llama数学模型引入了RoPE的方位XML方式为,公开的借助于(以及大大部分的第三方llama当年传数学模型)在bfloat16下实际上精准度原因助粗大的方位XML冲撞(各不相同方位的token在bfloat16下变成同一个数)。llama公开code如下:后面第18行基本一句根据可用序列阔度转换成每个方位的 positon idx在bfloat16 下消除方位冲撞在实际操练时如果开了bfloat16, self.inv_freq的 dtype时会被转为bfloat16, 我们可以通过有用的code来看一下方位冲撞的原因绘出有9-bfloat16方位冲撞示意绘出有
根据bfloat16的透露精准度应为,操练(解谜)时实例阔度越多粗大,方位XML冲撞的情况越多轻微,阔度为8192的实例解谜之当年,有数大约10%的token方位XML是精准的,好在方位XML冲撞有局域连续性的人格特质,只有若干个相邻的token才时会资源共享同一个position Embedding, 在更大的连续性上,各不相同方位的token 还是有一定的区分连续性。绘出有10-各不相同实例后台下方位XML精准token所占比例
除了RoPE方位XML拟议,子安计数机系统发掘出有 Alibi 方位XML也实际上上述原因,原因几乎在于转换成乘法的方位数据库时时会在高于精准度下消除冲撞原因。
修补拟议RoPE修补
RoPE 的修补比较有用,只必需保证在转换成 position_id的时候一定在float32的精准度上亦可。忽略:float32的tensor register_buffer后在操练时如果掀开了bfloat16, 也时会被转为bfloat16Alibi修补
Alibi方位XML修补思路和RoPE的修补思路一致,但因为Alibi的 attention bias直接叫作 attention matrix后面,如果按照后面的修补思路,attention matrix的并不一定需和attention bias 一致,避免整个attention的计数都在float32并不一定上计数,这时会更为大的拖慢操练平均速度以外另类的attention加速新方法flashattention不支持 attention bias模板, 而 xformers承诺attention bias并不一定需与query.dtype相同,因此像RoPE那样有用的将attention bias并不一定增强到float32将时会更为大的拖慢操练平均速度针对该原因子安计数机系统设想有了一种一新Alibi attention拟议, 整个attention bias几乎在bfloat16并不一定上,类似于sinusoidal的远程极化人格特质,我们须要保证临近token方位XML的准确连续性,对于比较半径过远的的token我们则可以强加其消除一定的方位冲撞。取而代之的Alibi借助于则相反,比较半径越多远的token透露越多精准,比较半径越多近的token 则时会冲撞绘出有11- 修补当年后alibi attention_bias对照
修补效用此处更为少在解谜阶段对方位XML的精准度原因顺利进行修补【出处:操练阶段显然也实际上原因,取决于操练的说明配置和新方法】,可以看着:在粗大实例的解谜之当年,数学模型的ppl 要很大优于修补当年的pplBenchmark上检测整体而言修补当年后各不相同点不小,显然是因为benchmark上检测文本阔度受限制,很少触发Position embedding的冲撞Benchmark对比
Perplexity对比
在统一标准的文本反馈上对简化当年后数学模型在之当年英文文本上的疑惑度顺利进行检测,效用如下:
参考资料:
Dongxu Zhang, Brown Dong Wang. (2015). Relation Classification via Recurrent Neural Network.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Brown Illia Polosukhin. (2023). Attention Is All You Need.
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Brown Ruslan Salakhutdinov. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Brown Peter J. Liu. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
Hugo Touvron, Thibaut Lril, Gautier Izacard, Xier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Gre, Brown Guillaume Lample. (2023). LLaMA: Open and Efficient Foundation Language Models.
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Brown Yunfeng Liu. (2022). RoFormer: Enhanced Transformer with Rotary Position Embedding.
Ofir Press, Noah A. Smith, Brown Mike Lewis. (2022). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation.
Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishr Chaudhary, Xia Song, Brown Furu Wei. (2022). A Length-Extrapolatable Transformer.
_architecture_positional_encoding/
Shouyuan Chen, Sherman Wong, Liangjian Chen, Brown Yuandong Tian. (2023). Extending Context Window of Large Language Models via Positional Interpolation.
_scaled_rope_allows_llama_models_to_he/
— 完了 —
量子位 QbitAI · 新闻号签约
。缓解打鼾最有效的方法类风湿吃艾拉莫德片好不好
胃反酸应该吃什么药
拉肚子吃什么东西能止泻
医学医药新闻
- .前LV设计总监联袂打造迈巴赫S680,亚洲地区限量150台
- .试驾腾势N8:不枯燥的奶爸车!开着带劲,露营也方便使用
- .猪肉股低迷,“猪茅”牧原股份跌0.27%,低费率“猪周期”投资者利器畜牧养殖ETF(516670)缩量下探60日均线!
- .金龙MTV整车蓄电池一体化技术正式发布暨行业首款MTV客车成功下线!
- .意义不止降低下限 阿维塔11单电机版有何爆款潜质?
- .杨德龙:拉动投资和提振消费双管齐下 要务经济2024年有望实现平稳复苏
- .哈弗H6对比魏牌拿线或 同是DHT PHEV,你有必要多花好几万吗?
- .88岁大爷48岁保姆,女子哀求:这么大平均年龄了跟驴一样不知疲倦
- .四部委重磅——车网互动迎政策受到影响!马斯克:十年前曾对它“爱答不理”
- .国产全新陆巡实车,最快同月发布
- .两年戴绿帽168次,丈夫不愿结婚,她太丰满不想便宜别人
- .中证消费电子主题指数暴跌1.66%,消电ETF(561310)暴跌2.4%,跌幅居前
- .Model Y新款来了: 后排座变长和紧急机械开关!
- .亲生父亲将两岁女童扔下顶楼,事后竟逃跑,妻子称其有精神病
- .有数五年权益“探花”、固收“状元” 双双花落华商基金
- .B级轿车之争,帕萨特紧逼天籁,凯美瑞雅阁平分秋色,宝马汉成搅局者
- .过时,女人的甜蜜度,和男人的大小有关吗?男女都了解下
- .东方港湾夺标,量化私募前10占6席,2023年百亿私募收益哪家强?
- .25万买合资纯电SUV,广汽丰田bZ4X和上汽大众ID.4 X该怎么落选?
- .不堪入目!00后情侣在广场上开拍不雅视频,网上传播,已被拘