Transformer P11 前馈神经网络层代码实现
前面课程中,搞定了编码层的多头注意力子层,接下来就进入了第二个子层,前馈神经网络,这一层其实很简单,就是两个线性层加一个ReLU的激活就可以了,可以参考原论文的3.3节。
同样,这一层走完之后,也需要做一个残差连接和规范化,代码比较简单,就直接在这一层处理了。
代码示例
1、定义类结构
内容不可见,请联系管理员开通权限。
2、线性变换和残差返回
内容不可见,请联系管理员开通权限。
到目前为止,编码器层的几个子层结构,就讲完了。下节课,还需要把多头注意力和前馈神经网络,这两个子层组合到一起,重复N次,就组成了一个完整的编码器结构。
本文链接:http://edu.ichenhua.cn/edu/note/658
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!