抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

今天跟朋友讨论的一道有趣的面试问题:为什么Transformer中Scale-dot attention计算 $Attn = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}})V$,缩放因子一定是$\sqrt{d_k}$ 而不是d_k或者其他形式?

出处:ICLR 2021
代码链接:https://github.com/guolinke/TUPE