为什么Scale-Dot Attention的分母是根号d 请设置文章作者 发布于:2021年8月27日 次浏览 今天跟朋友讨论的一道有趣的面试问题:为什么Transformer中Scale-dot attention计算 \(Attn = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}})V\),缩放因子一定是\(\sqrt{d_k}\) 而不是d_k或者其他形式? 更新于:2021年8月27日 NLP Transformer 四元数 (Quaternion) 基础知识 最近读到一系列KG的文章都使用了四元数(Quaternion)用于Embedding或者扩展GNN。四元数是一种区别于实数和复数的数学工具,在这里整理一些关于这个数学工具的基础知识。 四元数是什... 知识图谱补全模型与超参数整理 本篇整理几种常见的知识图谱补全模型的原理以及对应的超参数。 RESCAL 论文出处:A three-way model for collective learning on multi- re...