抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

为什么Scale-Dot Attention的分母是根号d

今天跟朋友讨论的一道有趣的面试问题:为什么Transformer中Scale-dot attention计算 \(Attn = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}})V\),缩放因子一定是\(\sqrt{d_k}\) 而不是d_k或者其他形式?

论文阅读:Rethinking Positional Encoding In Language Pre-Training

出处:ICLR 2021
代码链接:https://github.com/guolinke/TUPE