具体而言,当同样的数据量在GRU中需要120Gb显存时,在LTC和NCP(LTC ... 为了避免符号混淆,此处x用代表隐藏状态,I代表输入,\sigma代表sigmoid函数,f、g、h代表三个可学习的网络,它们共享了前几层的主干网络。 CFC在设计上借鉴了循环神经网络中的门控思想 ...