抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

今天跟朋友讨论的一道有趣的面试问题:为什么Transformer中Scale-dot attention计算 $Attn = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}})V$,缩放因子一定是$\sqrt{d_k}$ 而不是d_k或者其他形式?

本文发表于AAAI 2021,关注了知识图谱补全任务的少样本场景问题。

最近忙活了将近一个多月总算把计算语言学布置的最大概率汉语切分作业写完了,虽然中途一波三折,还发生了很多五光十色奇形怪状让人难忘的事情,所幸最后还是比较完整的写了出来,也学到了不少的知识。因此便有了这个系列的文章。

在这篇给出这系列文章的导航帖汇总。

本篇继续讨论对输入句子的处理问题。FMM 和 BMM 是指对输入句子分别找前向最长词和后向最长词,某种程度上来说属于贪心算法的一种,比较惊喜的地方是两者结合常常能获得比较不错的分词效果。

本篇讨论的是对特定输入句子进行的处理过程。基本思想是对特定输入句子从前往后遍历找出所有词构成有向无环图,然后从最后一个词开始往前找每个词的“最优左近邻词”构成一个完整的词语序列。

BiGram 语言模型,也就是二元语法模型,起源于 NGram,属于 N = 2的情况。基本思想是当前词依赖于仅前一个词的出现概率。

最近忙活了将近一个多月总算把计算语言学布置的最大概率汉语切分作业写完了,虽然中途一波三折,还发生了很多让人难忘的事情,所幸最后还是比较完整的写了出来,也学到了不少的知识。因此便有了这个系列的文章。