阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-16
德邦股份上半年营收增长超11% 技术降本与服务升级双轮驱动行业突围 *ST汇科:拟2907万元收购南京壹证通51%股权实测是真的 开盘:美股周四低开 7月PPI显示通胀升温 哈银花等“月炮”产品贷款年利率高达400%!复星系商盟支付提供支付服务又一个里程碑 张峰获准担任甘肃银行合规总监实测是真的 航天环宇:聘任副总经理太强大了 海森药业:聘任吴洋宽为副总经理又一个里程碑 流量明星代言难救场!甘源食品净利大跌,3115家经销商收入“降温” 李嘉诚旗下长和最新表态:预计今年不会完成港口交易,将邀请内地投资者加入!反转来了 喜报!龙国移动院士专家工作站三度荣获“龙国首都市优秀院士专家工作站”称号反转来了 【微聚焦】恒丰银行青岛分行成功落地首笔房地产“以旧换新”贷款科技水平又一个里程碑 杨明获准担任浙江农商联合银行首席信息官 A股头部轮胎企业再添海外重大投资!赛轮轮胎拟超20亿元在埃及建厂,年产360万条子午轮胎又一个里程碑 江苏球迷专属!宁波银行宁苏锡三城联动打造“苏超能量站”这么做真的好么? 华为手机概念持续走强,宏和科技等多股涨停反转来了 【券商聚焦】西南证券维持吉利汽车(00175)“买入”评级 指新车周期有望带动销量快速增长 每日投行/机构观点梳理(2025-08-15)最新进展 液冷板块强势领涨!易方达数字经济ETF捕捉算力“降温革命”红利 黄金周五交易提醒:“恐怖数据”势必点燃行情?官方已经证实 江苏球迷专属!宁波银行宁苏锡三城联动打造“苏超能量站” A股银行股普遍下跌,工商银行等跌超2% 【中广聚焦】解局! 为何多家广电公司频繁来华数调研交流学习了 吉利汽车中报:核心利润大涨102% 全年销量剑指300万 协同整合释放高质量发展红利 太励志!机器人失去一条手臂仍坚持比赛 汉嘉设计上半年净利润同比预增超300%,机器人业务领航实测是真的 985亿元营收背后:京东物流上半年以 “智” 破局,海外仓版图实现进一步扩张是真的吗? 现代牙科发盈喜 预期上半年取得纯利约2.79亿至2.95亿港元同比增加约30.1%至37.6%最新进展 12只翻倍基曝光,基民回本了吗后续反转 赣锋锂业联合LAR共同开发阿根廷锂盐湖项目最新进展 【交易参考】8.15:美国PPI同比飙升,美联储降息预期受挫 加拿大AI初创公司Cohere完成一轮5亿美元融资,公司估值达68亿美元记者时时跟进 美国关税冲击下,日本第二季度GDP环比增长0.3% 投资大佬Tepper减持阿里巴巴、京东等 买入股价暴跌的联合健康后续反转来了 2025上半年汽车主激光雷达出货量排行榜:禾赛、华为、速腾、图达通是真的? 对冲大佬阿克曼旗下潘兴广场Q2建仓亚马逊 清仓加拿大太平洋铁路科技水平又一个里程碑 美国被曝偷装追踪器防止AI芯片转运到龙国:还未在其植入监控软件官方已经证实 美联储9月或启动温和降息周期 市场预期25个基点成定局又一个里程碑

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章