技术解析｜小米 YU7 增强哨兵模式，基于大模型“从监控到理解”

作者：陶烟烟

小米汽车在昨天的发布上提出了「增强哨兵模式」，正好我们在高通汽车峰会，和工程师们交流这个技术细节。

这是由于大模型在智能座舱中的落地应用加速，哨兵模式作为智能汽车安防体系中的一项关键功能也迎来结构性升级。

从传统的距离感应和定时录像，到基于大模型实现的行为识别与事件摘要，增强哨兵模式的技术演进不仅显著提升了报警效率与信息有效性，还带来了隐私保护、算力挑战及端侧部署的系统性变化。

这种模式的工作机制、模型需求、芯片支撑能力及用户体验优化，我们可以讨论下。

哨兵模式的进化逻辑与技术特征

传统的哨兵模式通常依赖静态物理触发条件，例如人与车的距离小于 5 厘米且停留超过 10 秒，即触发视频记录机制，生成前后三分钟的安防录像。

尽管这种方式具备一定的报警能力，但存在两个主要短板： 一是误报率高，无法识别真实的威胁行为；二是报警信息冗长，用户需耗时观看完整视频。

增强哨兵模式的核心变革在于将「大模型」引入监控链路。 不同于以往的规则触发逻辑，增强模式依赖于具备视觉理解和语言生成能力的大模型，对外部环境进行动态分析。

当系统检测到划车、拉门把手、踹车、给轮胎放气等具体行为动作时，将触发事件摘要生成模块。

这些摘要不仅提取出事件的高光时刻，还能结合行为逻辑进行自然语言描述，实现「车外异常行为→事件抽象→结构化呈现」的闭环处理。

要实现上述能力，模型的语义理解和场景分析能力成为关键。

行为识别本身即涉及复杂的时序图像理解任务，而事件摘要则进一步要求模型在理解基础上进行语言组织，属于生成类任务范畴。

一般而言，能够胜任这一任务的模型规模需在 5-6B （Billion parameters）以上，而这一算力门槛直接决定了模型是否可在本地运行。

芯片支撑与本地部署的系统能力演进

增强哨兵模式要落地，不仅依赖于模型能力，更取决于计算平台能否支撑其运行。

当前主流座舱芯片如 8295，虽然拥有约 200TOPS 的算力，但其架构仍以 2B 模型以下为设计基准，无法满足行为识别及摘要生成所需的模型容量。因此，该功能只能依赖更高等级的芯片完成本地部署。

高通 8797 芯片的引入成为关键转折点，芯片支持运行 7B 乃至 14B 级别的大模型，结合其显著提升的 NPU 算力，端侧推理速度可达 40TPS，并正向 50-60TPS 的目标推进，处理能力已经突破生成类任务对响应速度和并发性能的基本门槛，能够在车辆端实时完成图像识别、行为分类、事件组织与摘要生成等完整流程。

高通 8797 的本地部署不仅提升了响应效率，更在隐私安全方面提供了根本保障。

所有模型推理、用户行为识别、车内对话数据处理均在本地进行，避免了传统云端方案中潜在的数据泄露风险。

例如，系统可通过本地运行的 14B 模型，分析车内语音，生成用户画像（如「王老师喜欢听古典音乐，常去虹桥机场」），从而在语音交互中实现「按人控车」，如「打开王老师的车窗」。

与云端方案相比，本地处理将平均响应时间从 1-2 秒缩短至约 0.2 秒，显著提升交互体验。

从更广义的视角来看，大模型的本地化部署不仅优化了哨兵模式，还为车载系统引入了统一的多模态感知框架。

例如，8397 芯片可支撑高端座舱中的 7-8B 模型运行，提供包括 DMS （驾驶员监测）、OMS （乘客监测）等多模态融合功能，构建更加完整的座舱 AI 能力。

小结

增强哨兵模式的提出与落地，智能汽车从「记录现场」走向「理解现场」的转型阶段。在端侧部署的大模型能力支撑下，能识别威胁行为，还能以结构化摘要形式呈现事件全貌，大幅度提升用户信息获取效率，并降低无效报警的干扰。

核心技术突破集中在两个方向：一是通过芯片算力跃迁实现对 5-14B 模型的本地推理；二是模型在视觉理解与语言生成之间的高效协同，构建面向事件理解的自动摘要能力，本地化处理模式确保了数据的私密性与合规性，为高等级安全应用建立了基础。

哨兵模式的进化逻辑与技术特征

芯片支撑与本地部署的系统能力演进

小结

请截图后在微信扫码参与互动