transformer - 搜索

约 16,300 个结果

在新选项卡中打开链接

一周内

zhihu.com
https://www.zhihu.com › tardis › zm › art
一文了解Transformer全貌（图解Transformer） - 知乎
2025年1月21日 · 因为 Transformer不采用RNN结构，而是使用全局信息，不能利用单词的顺序信息，而这部分信息对于NLP来说非常重要。所以Transformer中使用位置Embedding保存单词 …
zhihu.com
https://www.zhihu.com › question
如何最简单、通俗地理解Transformer？ - 知乎
但Transformer是并行地处理句子中的单词的，缺少单词的位置信息表征。为了有效地表征单词的位置信息，Transformer设计了位置编码 PositionalEncoding，并添加到模型的输入中。于 …
zhihu.com
https://www.zhihu.com › question
如何从浅入深理解 Transformer？ - 知乎
如果说「从浅入深」理解 Transformer，逐渐要到深的那部分，答案肯定短不了，希望你有耐心看完。我认为分三步：第一步，了解 Transformer 出现之前的几个主流语言模型，包括 N 元文 …
zhihu.com
https://www.zhihu.com › question
o1、GPT4、GPT4o 这三个有什么区别？ - 知乎
从模型的基本特性来看，OpenAI o1于2024年上线，包含o1-preview和o1-mini两个版本。. o1-preview推理功能比较完整，在应对复杂任务时游刃有余；o1-mini经济高效，专注编码、数学 …
electro-tech-online.com
https://www.electro-tech-online.com › threads
Transformer | Electronics Forum (Circuits, Projects and …
2025年2月3日 · I want to use one centre tap 12 - 0 -12 transformer to power amp (lm1875 stereo) and a small pre amp board but I also need a 5v dc supply. what is best configuration for this. …
zhihu.com
https://www.zhihu.com › question
大模型推理框架，SGLang和vLLM有哪些区别？ - 知乎
Transformer 1. Attention中的Q，K，V是什么 - 知乎. 阿里大模型面试原题：LLM推理为什么用KV Cache_mb648c192b17a88的技术博客_51CTO博客. 缓存与效果的极限拉扯：从MHA、MQA …
zhihu.com
https://www.zhihu.com › question
深度学习中“Transformer”怎么翻译为中文？ - 知乎
Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及，它已经成为一类以自注意力为主要部件的特定模型，其原本在机器翻译中的内涵变得不再重要，翻译 …
zhihu.com
https://www.zhihu.com › question
transformer的损失函数如何定义？ - 知乎
2021年的时候有深入研究过transformer模型和GitHub上的代码，但是由于实验室设备太垃圾，带不动程序。以下是个人的一些偏见，可能不正确。我们知道这个模型通常用于序列到序列的任 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
Transformer变种对比：GPT和BERT的差别（易懂版）-2更 - 知乎
2025年2月1日 · 上图是Transformer的一个网络结构图，Bert的网络结构类似于Transformer的Encoder部分，而GPT类似于Transformer的Decoder部分。单从网络的组成部分的结构上来 …
zhihu.com
https://www.zhihu.com › question › answers › updated
深度学习中“Transformer”怎么翻译为中文？ - 知乎
看了很多回答，感觉自注意变码器，或者就直接变码器，还挺靠谱的。一个英文单词就这么多人不敢翻译，我也是服了，有什么了不起嘛，本质是干什么的，起一个合适的名字就行了呗，难 …
分页
- 1
- 2
- 3
- 4