新闻习作
开云·Kaiyun体育(中国)官方网站 登录入口可让视觉特征自然带有语义对王人智力-开云·Kaiyun体育(中国)官方网站 登录入口
能看懂视频并进行跨模态推理的大模子 Keye-VL 1.5开云·Kaiyun体育(中国)官方网站 登录入口,快手开源了。
比拟此前的预览版块,Keye-VL 1.5 的时序定位智力进一步升级,况且援救跨模态推理。
还革命性地提议 Slow-Fast 双路编码机制,给模子带来了 128k 的超长凹凸文窗口,而且速率与细节兼顾。
得益上,不仅在 Video-MME 短视频基准斩获 73.0 的高分,还在通用、视频和推理场景的精深 Benchmark 当中领跑同级模子。
视频元素 0.1 秒级定位,还援救推理
要说 Keye-VL-1.5 最大的亮点,究诘团队合计主要有三个,也即是起头提到的 128k 凹凸文、杰出的短视频会通智力、 以及更强的 Reasoning 智力。
在视频会通场景当中,这三项智力好像同期得以展现。
开始是时序信息会通,Keye-VL-1.5 好像准确判断特定物品在视频中出现的时候点,而且精准到 0.1 秒级。
比如在这段 26 秒带货视频片断中,先容了一款充电宝,其中一个关节是将其装进包包,以体现便于佩戴。
Keye-VL-1.5 看完这段视频后,准确回应出了其中包包出现的时候—— 22.3-23.8 秒。
而其他模子或者时候只精准到秒而且还不准确,或者干脆不说时候,获胜数起了镜头。
再来是描画智力,Keye-VL-1.5 好像防御描画视频画面场景和细节。
举例关于上头这段视频,Keye-VL-1.5 给出了这么的描画:
况且 Keye-VL-1.5 还具备视频推聪敏力,好像字据前序视频内容推断后续事件发生原因。
在这段宠物视频当中,大狗作念出了一个咬小狗耳朵的动作,而 Keye-VL-1.5 要分析大狗为什么要咬。
其实谜底在视频当中还是以翰墨的体式写了出来,可是 Keye-VL-1.5 的评释愈加防御,并进一步用视频中的后续变化来加强我方的不雅点。
跑分方面,Keye-VL-1.5 在多项公开 Benchmark 以及里面评测中都拿到了同尺寸模子中的最高分。
在 MMBench、OpenCompass 等详细类基准中,Keye-VL-1.5 的得益均杰出 Qwen2.5-VL 7B,并取得多个 SOTA。
在图像推理强干系的 AI2D、OCRBench 等数据谀媚,也均超出同级其他模子。
针对视频会通,Keye 在 Video-MME、TempCompass 和 LongVideoBench 上,得益通常当先于 Qwen2.5-VL 7B 等模子。
包含视觉的数学与逻辑推理维度上,Keye 也保捏了当先上风。
除了这些公开数据集,Keye 团队还构建了 200 条面向短视频应用的里面多维度评测。
Keye-VL-1.5-8B 在东说念主类标注的五项策动(正确性、完好性、干系性、灵通度、创造性)上获取 3.53 分的详细得益,较预览版块普及了 0.51 分,也越过了手脚对比的竞品模子。
那么,Keye-VL 是若何达成的呢?
视频会通,也用上了快慢想考模子架构和快慢编码政策
举座遐想上,Keye-VL-1.5 罗致了"视觉 Transformer(ViT)+MLP 投影器 + 讲话解码器"的三段式架构。
ViT 将输入图像或视频帧切成 14 × 14 的 patch 序列,用自防备力捕捉全局空间关系。
该 ViT 在开动化时获胜剿袭 SigLIP-400M 参数,SigLIP 是一种图文对比预锻真金不怕火步调,可让视觉特征自然带有语义对王人智力。
为了在不裁剪的情况下处理淘气鉴识率,团队对 ViT 添加了"原目生辨率"援救,操作上先把王人备位置向量插值到淘气尺寸,再引入 2DRoPE(二维旋转位置编码)增强高鉴识率外推。
ViT 输出的 patch 特征经由两层 MLP 投影器送入讲话解码器,讲话端罗致 Qwen3-8B,并在其位置编码中加入 3DRoPE。
3DRoPE 是在传统二维旋转角的基础上再加多一维"时候 / 深度"角度,目的是让文本 token 与视觉 token 按斡旋时序排序。
针对视频的高帧率与高鉴识率矛盾,Keye-VL-1.5 还革命性地提议 Slow-Fast 编码政策。
模子开始会对灵通帧作念 patch 级余弦相似度计算打算,若与最近一次"慢帧"(又称变化帧,低帧数高鉴识率)相似度>95% 则判定为"快帧" (又称静止帧,高帧数低鉴识率),不然标记为新"慢帧"。
处理时,慢帧保留高鉴识率,快帧分拨慢帧 30% 的 token 预算,再结合二分搜索,好像让总预算精准落在落幕内,并在序列里插入时候戳特殊记号以标注帧界。
通过这种视频快慢编码政策,Keye 达成了性能与计算打算资本的有用均衡。
四阶段渐进式预锻真金不怕火
预锻真金不怕火遴荐四阶段渐进活水线,按照"先单模后多模、先对王人后扩窗"的限定伸开:
Stage0,视觉编码器预锻真金不怕火:仅用 SigLIP 对比亏本赓续锻真金不怕火 ViT,强化视觉语义,稳健里面数据散布;
Stage1,跨模态对王人:冻结 ViT 与 Qwen,只锻真金不怕火 MLP 投影器进行大限制跨模态对王人;
Stage2,多任务预锻真金不怕火:解冻全集合,在 8K 凹凸文下端到端优化,增强模子的基础视觉会通智力;
Stage3,退火锻真金不怕火: 在精选高质料数据上进行微调,引入长凹凸文模态数据,把凹凸文拉长到 128K。
扫数预锻真金不怕火语料越过 1 万亿 token,数据源既包含 LAION、DataComp、CC12M 等公开多讲话图文库,也有大限制自建图像、视频与文本。
四阶段扫尾后,Keye 团队对不同数据配比锻真金不怕火的"同质"权重与针对 OCR、数学等薄弱项单独强化得到的"异质"权重进行模子交融,以减小偏差并普及鲁棒性。
"同质模子"指的是在退火期罗致疏浚集合结构和相似任务认识,但转移数据配比、样本难度或随即种子锻真金不怕火出的多份骨干权重,这些模子互相性能散布接近;
"异质模子"则是诓骗与骨干不同的专用数据域进行进一步精调而生成的民众权重,举例团队针对车牌、单据和街景翰墨异常汇集 / 合成数据锻真金不怕火出的 OCR-Expert。
由于两边架构一致,交融经过不错通过获胜权重插值达成,不引入推理时异常支拨,却能将民众的局部智力注入通用模子。
Post-training
Keye-VL-1.5 的锻真金不怕火后处理包含四个主要阶段:
第一步用监督微调结合多偏好优化(MPO)拓荒输出质料基线;
第二步通过五步活水线的大限制链式想考数据冷启动,为模子提供可靠的推理示范;
第三步在可考据奖励框架下罗致 GSPO 算法并和洽渐进教唆采样作念多轮强化学习,系统化普及通用推聪敏力;
临了一步以规定 - 生成式 - 模子三源奖励完成对王人强化学习,重心加强指示解任、神志一致性与用户偏好一致性。
在监督微调阶段,团队先构建包含 750 万多模态问答的候选池,用 TaskGalaxy 将样本映射到七万种任务标签,再刻意提高高难度类型的占比。
随后干预 MPO,以 25 万开源、15 万纯文本和 2.6 万东说念主工样本为基底,诓骗 Keye-Reward 模子分数和东说念主工评估构造凹凸质配对,通过偏好亏本函数让模子在合并问题上倾向得分更高的谜底,从而进一步普及回应质料。
有了质料可控的谜底后,模子借助链式想考冷启动活水线马上补王人推理深度,先自动生成带设施的解答,再由第二模子纯粹打分进行分级,中档样本经东说念主工精修后复审,高分样本获胜入库,为后续强化学习提供可靠冷启动权重。
接下来干预通用强化学习,系统开始按照样本难度分组,然后诓骗 GSPO 在组内基于序列繁难性权重裁剪上风函数,缓解长序列梯度不稳。
当推聪敏力趋于拘谨后,锻真金不怕火转入临了的对王人阶段。
规定奖励通过正则和 AST 分解强制搜检 JSON、Markdown 等结构与内容安全,生成式奖励由外部大模子评估逻辑一致性与讲话作风,模子奖励则来自 Keye-Reward 模子的细粒度偏好分。
三类信号动态加权,使最终模子既能解任指示又能保捏神志正确并合适用户偏好,同期有用镌汰无依据生成风险。
团队恶果屡次亮相顶会
说到快手大模子,咱们可能更纯熟视频生成模子可灵,但本色上,快手在其他类型的大模子上通常有很强的实力。
打造 Keye-VL 的 Keye 团队,是快手里面专注多模态大讲话模子研发的中枢 AI 部门,主攻视频会通、视觉感知与推理等前沿标的。
Keye 团队合计,整合视觉、讲话和行为等多源数据的智能体,关于解锁更深档次的阐明和有策动至关繁难。
当今,Keye 团队还是领有精深恶果,在本年的多个顶会上密集发布。
ICML 2025 上,Keye 团队提议了多模态 RLHF 框架 MM-RLHF(2502.10391),通过 120k 东说念主类偏好对比与月旦式奖励模子,显赫普及 MLLM 安全性及对王性情能。
KDD 2025 上,视觉讲话模子处理框架 VLM as Policy(2504.14904)获取了最好论文提名。
该框架通过 VLM 驱动内容质料与风险判定,显赫提高短视频审核遵守与准确率。
CVPR 2025 上,Keye 团队也发布了两项恶果。
交错图文多模态数据集 CoMM(2406.10462),提供了高一致性图文叙事样本,从而增强模子图文穿插会通与生成智力。
视觉 token 压缩加快算法 LibraMerging,罗致位置驱动合并,在无需再锻真金不怕火的情况下大幅镌汰推理支拨。
还有 ICLR 2025 中,Keye 有三项究诘恶果亮相,包括一种优化算法和两个数据集。
MoE 模子优化算法 STGC(2406.19905),不错检测 token 梯度打破并进行重路由,普及民众诓骗率与拘谨速率。
视频对话会通基准 SVBench(2502.10810),构建了时序多轮问答链,评测 LVLM 在流式长视频场景的推理水平。
还有视觉任务指示数据集 TaskGalaxy(2502.09925),不错自动生成万级层级任务与 40 万余样本,增强模子跨任务泛化智力。
在快手里面,Keye 团队的这一系列恶果,正在为短视频内容审核、智能编订、搜索与互动保举等业务场景提供底层 AI 智力。
Keye 正在把多模态技能从现实环境推向千万级泛泛场景,考据复杂视频会通在真确业务中可行且高效,为同类技能的工程化落地提供了获胜样本。
技能讲述:
https://arxiv.org/pdf/2509.01563
代码:
https://github.com/Kwai-Keye/Keye/blob/main/Kwai_Keye_v1_5.pdf
模子权重:
https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B
在线 DEMO:
https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
一键三连「点赞」「转发」「小心心」
宽宥在探究区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿证实逐日见开云·Kaiyun体育(中国)官方网站 登录入口