Decoder - 搜索 News

15 小时on MSN

IT之家 11 月 23 日消息，据 The Decoder 今日报道，美国马萨诸塞州一名学生因在作业中未说明使用 AI 技术而被学校处罚，联邦法院对此判决予以支持。此案可能为学校如何管理 AI 使用提供重要的法律指引。据法庭记录，Hingham ...

来自MSN5 小时

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

Janus团队投稿自凹非寺量子位 | 公众号 QbitAI 在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。而基于Rectified Flow的模型（如Stable Diffusion ...

GitHub4 天

飞桨学习赛：遥感影像地块分割——22年7月第一名：66分方案

有效的数据增强方法构建类别3难与训练的有效重采样办法，一定程度上解决类别3难以学习的问题。构建基于SegFormer改进的Decoder，一定程度上解决模型细粒度不够的问题。 PaddleSeg套件开发本项目使用的模型及数据集处理方法，均为在PaddleSeg原有的基础上进行 ...

3 天

万字深度：芯片自研

M-Core是速腾聚创首款自研SoC芯片。它将激光发射控制、接收控制、MEMS控制、后端电路和DDR芯片集成至单颗芯片，可以同时实现发射控制、扫描控制、信号处理、点云生成等众多功能。M-Core在大幅提升运算处理能力、点云细节、精度的同时，使电路板面 ...

3 天

梅赛德斯-奔驰的电动未来始于这款CLA原型车

Källenius表示，这款CLA“开创了梅赛德斯全新一代汽车的时代”，它使用了其最新的平台：梅赛德斯模块化架构（MMA）。在2022年接受Decoder采访时，他指出，我们将在2025年看到一个新的电动汽车平台，看起来这家汽车制造商有望在最后期限前完成。

5 天

多模态竞技场对标90B Llama 3.2，Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。毕竟Mistral ...

腾讯网5 天

使用Pytorch构建视觉语言模型（VLM）

点击上方“Deephub Imba”,关注公众号,好文章不错过 !视觉语言模型（Vision Language Model，VLM）正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节，可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。总体架构VLM ...

腾讯网2 天

Meta重磅开源7B-Spirit LM，一网打尽“音频+文本”多模态任务

在大型语言模型（LLM）性能不断提升的情况下，一个常用的方法是先用ASR模型将语音转录成文本，然后用文本模型来生成新的文本，最后再用TTS模型将文本转换成语音，这种流程的一个显著缺陷就是语音表达性不佳，语言模型无法建模并生成富有表现力的语音数据。

2 天

首个可保留情感的音频 LLM：Meta 重磅开源 7B-Spirit LM，一网打尽“音频 ...

Meta 最近开源了一个 7B 尺寸的 Spirit LM 的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。

3 天

里程碑式突破：谷歌推出 AlphaQubit 解码器，攻克量子纠错难题

IT之家 11 月 21 日消息，科技媒体 marktechpost 昨日（11 月 20 日）发布博文，报道称谷歌研究人员研发了 AlphaQubit 量子纠错解码器，通过深度学习，实时为量子计算机纠错。

中国自动化网4 天

嵌入式工控主板显示主板开发全志A系列方案

图形处理器：IMGPowerVRGE8300；Supports OpenGL ES3.2, Vulkan 1.1, OpenCL 1.2 视频处理器：H.265videodecoder4K@30fps,H.264 video decoder 4K@30fps, VP9 video decoder 地址：深圳市宝安区西乡街道互联网基地A区7栋电话：0755- ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果