不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
为什么现在的中国电影越来越烂?
自己拥有一台服务器可以做哪些很酷的事情?
微软宣布全球裁员 6000 人,为 2023 年以来最大规模,为什么此时裁员?会对微软带来哪些影响?
如何看待 Rust 的应用前景?
中年女性如何保持身材?
易语言作者吴涛的技术水平在国内能排到什么级别?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
以前的日漫都这大胆的吗?
如何看待心动的信号7中的翁青雅?
延边大学毕业典礼上,食堂阿姨的发言为什么能让许多同学落泪?
电话:
座机:
邮箱:
地址: