当前位置：首页 > 无 > 正文

《中国安防》特别报道｜依图科技段爱国：多模态大模型落地重塑智能安防新纪元

发布时间：2024-08-24 00:33分类：无浏览：128评论：0

导读：在过去十年中，人工智能技术一直是安防行业智能化发展的核心驱动力，为行业注入了新的活力和机遇。在深度学习的热潮中，安防是AI应用落地的先行者，当下大模型时代的开启，安防行业再次站在了...

在过去十年中，人工智能技术一直是安防行业智能化发展的核心驱动力，为行业注入了新的活力和机遇。在深度学习的热潮中，安防是AI应用落地的先行者，当下大模型时代的开启，安防行业再次站在了技术应用的前沿。目前，众多安防企业正聚焦于多模态大模型等关键技术的研究，致力于推动这些技术的产业化应用，助力各行各业实现数字化和智能化的飞跃。

中国安全防范产品行业协会旗下《中国安防》杂志，对依图科技总裁段爱国进行了深入的采访，探讨了智能安防行业中大模型的应用实践、现状，面临的挑战以及未来的发展趋势，分享给大家。

段爱国

依图科技总裁

多模态大模型落地重塑智能安防新纪元

安防行业是应用AI和多模态大模型的先锋领域。安防从高清化走向智能化阶段，即AI安防1.0。这一阶段，人脸识别、人体ReID、视频结构化、车辆/非机动车结构化等技术是这个时期的重要创新成果。随着安防技术产品在各个领域的广泛应用，长尾算法的需求日益凸显。传统深度学习模型是基于监督学习方法训练出来的，在面临复杂场景时会有很多约束和限制，这导致了过去几年间尽管AI安防取得了一定进展，但在实际应用落地效果上并未完全达到预期效果。现在，随着大模型时代的到来，我们进入了AI安防2.0。基于Transformer架构的多模态大模型，颠覆了传统安防行业的碎片化特点，并展现出以下三个主要特征：

一是“会思考”。多模态大模型不再像过去一样只是某种算法、某种工具，而是呈现出助手、智能体的特征，让机器看一遍视频，它能够准确识别视频中的内容，将机器看视频的能力转化为直观的算法，为行业带来革命性的变革。

二是“可对话”。人们使用多模态大模型的过程更像与另外一个人交流。用户可以通过语义搜索和语音指令调取视频，例如仅需简单地说出“请调取有积水的点位视频”，系统便能迅速响应，展现所有相关的视频片段。这一功能极大地提升了指挥调度的效率，节省了宝贵的决策和调度时间。

三是“能进化”。不能根据用户和环境而进化的智能系统是工具，不是真智能。真正的智能系统能够根据用户需求和环境变化进行自我进化。以依图天问大模型为例，它支持现场算法训练，能够根据实际应用需求快速迭代和优化。一个新的算法需求可以在1分钟内实现0样本冷启动，1小时内完成在线标注训练，并在1天内快速上线，展现了前所未有的智能化和灵活性。

因此，多模态大模型使视觉和语言的模型归一，统一了物理世界和认知世界的底层框架，让多模态的信息之间可以无差别表示和无缝转换，为大模型的人机交互模式、产品迭代模式、服务运营模式提供了更多的可能性。AI 2.0走向安全生产、走向基于数据和算力驱动的智慧运营，是未来安防行业发展的方向。

数据、算法、算力的挑战与解决方案

“数据、算法、算力”构成了人工智能的三大要素，大模型在安防行业落地过程中，首先，数据是AI的基础，但目前大量数据沉睡在硬盘中未能得到有效利用。现有的视频结构化技术对数据的挖掘能力有限，无法满足精细管理的识别需求。为了解决这个问题，多模态大模型的引入成为了关键。多模态大模型能够识别视频中的内容，不管是小猫大狗塑料袋，还是公园天桥菜市场，不管是刀具横幅行李箱，还是电瓶车带煤气罐，都可以精准识别，从而唤醒沉睡的数据，为安防领域带来更丰富的信息。

其次，算法是AI的大脑，其需求本质上来源于业务需求，而非厂商实验室的设想。因此，算法的开发和应用天然就需要与实际业务环境紧密结合。依图天问大模型提供了算法现场训练的能力，可以快速响应精细化管理需求，一个新的算法需求可以实现快速上线。这不仅符合数据合法保护的要求，同时也满足了业务对算法时效性的需求，确保算法能够快速响应并适应变化。

第三，算力成本是决定 AI 大模型应用规模的关键因素。当前高昂的算力成本限制了大模型的广泛应用。在模型调优上，依图基于视频监控场景做语义调优，同时行业首款xPU融合架构的服务器把低成本的内存虚拟化为显存统一寻址，从而在整体上达到了万倍性能提升、百倍成本下降。

综上所述，面对大模型落地应用过程中“数据、算法、算力”的挑战，多模态大模型、算法现场训练以及超融合架构的软硬件优化是目前较为有效的解决策略。这些方案有助于推动安防大模型的落地应用，提高人工智能在安防领域的实用性和效率。

除了数据、算法、算力这三大核心要素外，大模型在场景落地和应用过程中还存在一些挑战和困境：一是技术与现有安防系统的兼容性问题，需要确保新技术能够无缝集成到现有的基础设施中；二是用户接受度问题，特别是对于新兴技术的适应和信任；三是法规和标准滞后于技术发展，可能导致应用上的不确定性和合规风险。还有跨领域技术整合的复杂性，这需要多学科知识和技术的融合；四是商业化落地难题，尤其是在高度定制化和成本控制方面，需要找到平衡点以实现可持续的商业模式。解决这些问题需要行业内外的共同努力，包括政策支持、行业协作、技术研发和市场教育等。

大模型落地应用正迅速推进

得益于大模型的深度内容理解、广泛的适应性与场景泛化能力，以及更自然的人机交互体验，智能安防领域的大模型落地应用正迅速推进。作为人工智能领域的资深从业者，依图在2023年7月首个发布“天问”多模态大模型，这一创新成果目前已在全国几十个项目中部署实战，它在视频语义搜索、万物识别、AI智能体编排以及算法零样本冷启动等方面展现出巨大潜力。在具体场景中，公共安全、智慧城市建设、智慧交通、内容审核和智慧园区、智慧应急等方向的应用进展显著，这些领域对视频分析、行为识别和实时反应的需求不断增长。以2023年下半年西部某省份发生的烈性犬伤人事件为例，城运中心的工作人员面临快速生成烈性犬检测算法并布控到城市公共区域的挑战。如果采用常规深度学习的算法训练方法，要求数据搜集、标注、训练，一个新算法的产生至少需要半个月，这严重影响了管理的时效性。而基于多模态大模型的算法训练方法大大简化了这一过程。预训练的大模型基座带来近70%的准确性，工作人员在预警处置的过程中仅需简单点击预警的对错，不到5天的时间就可以完成超过90%的算法准确率。现场生产新算法的能力展现了惊人的速度和灵活性，有效保障了公共安全。这种以用户需求为核心，以技术创新为驱动的策略，是推动AI 2.0发展的关键动力。随着技术的不断进步，预计未来智能安防的大模型将在更多细分市场和复杂场景中发挥关键作用，特别是在需要高度个性化和动态适应性的场景中，大模型的应用将更具潜力。

智能安防行业大模型发展前景可期

智能安防行业的大模型正处在突破性发展的前夜，其发展趋势和前景十分广阔。随着大模型技术的进一步发展，特别是多模态大模型的应用，促使安防系统正从传统的视觉监控向更深层次的内容理解、场景适应性和人机交互发展。未来的智能安防将更加注重数据和算力的结合，推动传统安全防范到安全生产管理的转变，以及智慧运营的实现。在这样的趋势指引下，依图在当前新一轮AI浪潮下将聚焦技术创新和产品落地的深度融合，加强多模态大模型技术与领域知识深度结合的产品与方案，打造更懂行业、更懂客户、更懂场景、更易使用的产品，助力“AI+”能更快地在各行业落地，拓展人工智能新疆界，开启视频情境理解的新纪元！

延伸阅读