腾讯云大数据Data+AI专场圆桌论坛实录
点击蓝字⬆ 关注我们本文共计4760字 预计阅读时长15分钟9月17日,2025腾讯全球数字生态大会腾讯云大数据Data+AI专场隆重举行。专场中腾讯云大数据基础产品总经理程彬与复旦大学教授何震瀛、飞轮科技联合创始人肖康、AutoMQ创始人周新宇、Databend联合创始人吴炳锡、质变科技联合创始人魏闯先等多位专家共同围绕Data+AI的大的融合趋势,从用户的需求、产品、商业及未来技术演进的趋势展
点击蓝字⬆ 关注我们
本文共计4760字 预计阅读时长15分钟
9月17日,2025腾讯全球数字生态大会腾讯云大数据Data+AI专场隆重举行。专场中腾讯云大数据基础产品总经理程彬与复旦大学教授何震瀛、飞轮科技联合创始人肖康、AutoMQ创始人周新宇、Databend联合创始人吴炳锡、质变科技联合创始人魏闯先等多位专家共同围绕Data+AI的大的融合趋势,从用户的需求、产品、商业及未来技术演进的趋势展开深度的对话。
问题1:Data+AI是否引发新一轮范式革命?
程彬:Data+AI大数据发展历史来看,它经历了二三十年的演进,Data+AI到今天为止就是Data跟AI结合过后,它的发展是线性的发展还是说会带来革命式的跃迁的发展,背后会不会有一个新的范式出现?
何震瀛:实际上最近两年我们注意到在一些数据和智能的顶级会议上有一些很重要的变化,在上面经常提的两个经典范式,一个经典范式是AI4DB,另外一个方面是DB4AI,这两方面赋能稍微有一些区别。 AI4DB是希望尽可能把AI的技术引到数据处理,包括云平台和云原生的数据处理来进行降本增效。DB4AI是我们做很多AI算法时并且需要数据平台的支持,需要高效的算法和高质量的数据,这两方面是相辅相成。
肖康:其实Data+AI今年特别火,大家都说今年是Agent的元年,Agent发展之后对Data+AI的要求是更高的,从我们做数据库,我们是做分析型数据库,像DorisDB几个主要场景,主要是做企业的分析,比如BI、营销分析、企业相关分析、Lake House和可观测性。我们发现AI这波浪潮来了之后对Data+AI的需求有两类,一类是现有的场景AI化,比实时分析都是面向人的分析,都是人问问题或者是人来发起请求,现在是Agent发起请求或者是通过语言发起请求,这对于访问数据库的实时性更高,因为Agent很快,希望实时看到数据快速响应,对并发的要求也很高,因为参与数据分析的人是少数的,但是Agent是非常多的,成千上万、几十万上亿都是可能的,对数据库并发的性能要求是很高的。在LakeHouse和可观测性领域AI带来了巨大的变化,LakeHouse是不再满足结构化的表的数据分析,非结构化的数据lance这些分析越来越多,数据库得能不能很好的结合也是很重要的。 可观测性里,原来的可观测性是面向微服务、分布式架构,现在AI的应用产生大量的数据,特别是文本的数据都是比以前的文本观测数据里面的文本要多很多,量也大多,这给可观测性的平台,能不能很好支持索引、全文检索带来很大的挑战,这是传统的实时分析、LakeHouse和可观测AI注入了新的挑战和活力。 另外一个方面,AI确实也带来了一些新的问题,比如说我们增强大模型的回答能力做RAG就需要数据库提供向量检索,甚至是和文本和结构化数据结合起来的混合检索的能力。还有反过来的是DB可以利用AI的能力分析在原来数据库和数仓里的文本的数据,可以用大模型的算子来分析在SQL里分析非结构化的数据。 我们看到一方面是原有的数据分析的负载,在AI时代有增强;另一方面是AI确实带来了一些新的数据分析的需求。
问题2:企业数据需求正在发生哪些变化?
程彬:如果这种新的范式出现过后,具体的企业里的无论是业务部门还是数据中台部门,他们在对数据分析和对数据使用过程中的需求会不会有一些新的变化和发展呢?
周新宇:过去数据团队做一些架构升级、成本优化、性能优化的事情,这两年大家的工作重心都在讲怎么做Data Agent,反映了是企业对当前数据利用率偏低的不满意。 比如说AI产生之后,如果是工程师有web coding要求是立马能够看到,有一个demo的展示。对于数据今天也是一样的,我今天有一个数据挖掘的需求,能不能立刻给我,所以现在大部分公司现在的部门重心已经变成做Data Agent,对于Data Agent落地更多的是类似于ChatBI的形态,提升人的效率,过去做数据短板是在于人,人的想法是受限于人的思维模式,所以Data+AI这块得能够更好的提高人的效率。 另一方面,核心点是Data数据的使用主体到底是人还是AI,如果是人上限就是人,如果是AI能够把数据利率大幅度提升。 有些企业也在做Stream Agent,核心是用Kafka的实时流序存,以及Flink流计算框架,能够以大模型的方式,以Data追问的方式来响应数据,能够为企业做实时决策。
吴炳锡:我们Databend主要是面向海外服务,我们也感觉有几个变化:第一是数据部门,原来更多是面向传统大数据的各种数据搬来搬去,现在变成了集中存储的方式集中对外提供服务,包括数据共享提出的要求。第二是业务部门更多的公司是引入Agent作为新的形式,基本盘还是在SQL这个基本盘的数据治理上。另外Agent的Workflow的编排是一种新的需求,Agent现在看起来很好,成本往往比较高。怎么落地是企业一个新的考验点。 从我们对海外客户的感觉来看,原来所有的大数据都理解为是离线的,业务没有参与进来的,甚至是把它沉淀在里面。但是海外的湖仓是要参与到业务中,扮演工作流,甚至从湖里面再把数据推到业务系统里面,再跟AI做互动的流程,这是我们做海外的感知。
魏闯先:因为我们质变科技主要是做的一款云原生的数仓,所以在最近几年发现了其实整个数仓的用户有非常大的变化。在之前数仓的主要用户是BI人员或者是数据分析师,现在数仓的用户发生了巨大的变化,不再是技术人员越来越变成业务的决策者,像市场的人,或者是产品经理。他们可能不懂技术,他们对数据平台的要求就变成了有一个很现实的业务问题,咱们的平台、咱们的数仓能不能立刻给出一个准确的答案,我不需要跟你交互,跟你的交互是自然语言,需要理解你的业务和专有名词,我不希望跟你交互是冰冷的代码。这对数仓部门和数仓企业提出了非常高的要求,就有两点,原来只是一个数据精确的计算变成了能够智能洞察和智能探索,我和你交互是自然语言,因为是业务人员,业务人员是懂业务的,程序员或者是业务人员是不懂业务的,可能你加班几个月做了很漂亮的报表大家对我没有意义,我是希望在你的平台上对我的业务给出一个解决方案。 第二就是说,原先只是一个结果的正确,现在不是了,是洞察的可靠,除了给我结果之外,需要给出这个结果的依据及详细的过程。这样我做一个业务的决策者才敢真正使用,而不是一个简单的数据,这就是我感受到的两点大的变化。
问题3: 产品构建应该升级还是重构?
程彬:在座各位都是帮助用户和满足用户需求的,有了新的需求对我们来说肯定是一件很开心的事情,面对新的需求怎么从产品的角度来满足用户的需求,在产品构建上大体上可能有两种路线,第一是在现有的平台上想办法打补丁或者是想办法升级,第二是既然它是一个全新的范式,全新的需求,有没有可能在系统上需要有全新的设计的理念来满足用户的需求?
何震瀛: 魏老师提到了两个关键点,第一是怎么能够理解用户的真正的需求,第二是分析的时候怎么能够给出来一个可靠的分析链,告诉用户是怎么来的。 因为不光是我们系统怎么升级,核心问题都是要解决赋能的问题。不管是用Data,用AI,最终是希望为当前的业务赋能。比如说Agent,我们现在做Agent一个很重要的方式是大家先去了解需求,可能从上到下要做一个什么样的Agent,接着大家开始布局,接着一堆工程师开始编码,大概是这样的模式。
吴炳锡:我建议看看海外,海外现在在做AI里面最核心的点就是数据交换,数据怎么来。有的公司数据不能满足的情况下,怎么跟各个公司做数据交换,这里面有一个datamarket或者是做私有化的可信活力空间,比如说气象行业几个气象局怎么做数据交换,这个东西在大数据平台里套还是比较有用。 除了刚才讲到的结构化、半结构化和非结构化的数据治理,我们更多是讲统一种数据统一计算统一存储,这给你的产品里提出来其实还是混了一堆的计算引擎和存储格式,让AI处理还是很难。在AI的浪潮下也可以看到很多AI公司抛弃了我们传统的大数据公司,人家写的存储引擎也很好,我建议是要考虑一下到底在这里面真正想要的价值是什么,而不是简单的自然语言2SQL这样的方式和fuction的探索,这个里面可以想像的空间很大,可以重新构建。
魏闯先:我非常同意吴老师的意见,对现有的平台打补丁可能是短期必需的,短期没有办法,但是从长远看这个平台还是要做理论上或者是架构上的重构,这样才能真正释放在AI时代数据的价值。我认为,如果要做一个好的平台在AI时代能够发挥价值,还是要从数据库或者是数据仓库这些基础的关键因素。最关键的包括解析器、优化器、计算、存储这4个维度做深层的改变。 传统的解析器要么SQL或者是代码程序,更多的用户只会自然语言,能把普通用户的自然语言和经验转化成机器可以识别和准确执行的计划。这是解析器必须要解决的问题。 第二层是优化器,对一个复杂的问题涉及到的领域非常多,它不只是只是结构化的数据,可以有世界万物的信息,这个时候就需要优化器能够具备足够高的开发性和拓展性,将复杂的多模态计划转化成机器可以高效执行的计划。 第三个是执行引擎,除了把执行引擎做到各种算子、交易算子、IGE算子做到足够化向量化之外,还需要内置跟大模型深度的集成,能够将根据数据的特征,自动发现数据的规律,找出其中的一些关键点,能够生成报告,这就是用户的交互。 第四是存储引擎,AI时代是处理整个世界的信息,这就需要存储各种各样的多模数据,也不仅仅是简单的存储,更重要的是把多模数据融合起来,这是存储引擎非常重要的事情。
肖康:对于我们来说很大的信号是DeepSeek的开源。DeepSeek的开源模型特别是在中国和全球大规模的采用,因为有了开源模型之后更多企业可以在自己内部部署大模型。在企业内部部署大模型和调用公共大模型很大的区别是把企业数据大量涌起来,对于公共大模型在企业用的时候进行服务还是有顾虑的,在企业内部使用这个时候可以更好的用企业内部的数据,隐私保护会更容易。所以25年我们在AI方面的动作是非常大的,包括支持向量检索,反过来做AI function做数仓的分析。
问题4: 开源与商业化如何协同发展?
程彬:任何技术最终还是要走向商业化,在开源已经成为技术软件的主流模式的今天,怎么来看待开源和商业化的关系?
肖康:我们公司是一家既做开源技术又做商业化产品的公司,我们既是开源阿帕奇最大的贡献者,也是最大的受益者,当然其实各家云厂商,包括腾讯云也是我们很好的合作伙伴,所以一起去构建这个开源的生态,再把一些有需要商业服务的客户为他们提供商业产品和服务,我觉得是非常良性的互动的策略。
周新宇:开源对商业化一定是起到“加速器”的作用,做开源怎么获得最终商业化的成功,我认为有两个观点:第一是今天做开源能不能以可持续发展的思路做开源,要持续投入做生态,不能因为深夜化的考量来损害生态的建设。第二是技术是否有领先性,开源把技术变得相对透明,能不能持续领先在这个社区,有一些持续技术先进性的体现,这是对开源成功化体现的一个关键。
吴炳锡:我有一个最大的感受,开源世界看性能都是飙车高手,在企业化应用都是稳定为主。我们做湖仓里有的朋友说产品很快,但是在海量计算做OOM(内存溢出),我们在这里面感受是说,再大的数据都不能OOM,哪怕一个很小的我也要计算出来,只是时间会长,这是我们的观点。这里面做开源和商业化中要知道这个路在哪儿,知道用户的需求在哪儿。
问题5:对未来Data+AI的展望
程彬:未来在Data+AI这个领域中各位觉得还有没有一些很颠覆性的非常有意思的事情发生?
何震瀛: 因为Data+AI是一个蛮大的领域在这中间我们要拿数据通过AI的手段也好,或者是各种各样的手段为用户的业务赋能。我的思考是中间蛮核心的一个观点,一定是用各种各样AI的手段增加对数据的理解及业务的理解,因为在这个基础上才能做到更好的贴合用户的业务,以及为它服务。 因为整个领域是开放的,整个生态有上游企业、核心企业和下游企业,这其中的布局是非常考究智慧的一件事。可能自己的改动怎么兼容上游、下游,同时具有足够的弹性,这是一个非常非常内力的事。
魏闯先:我觉得未来两三年AI会带来翻天覆地的变化,甚至某一天大模型不是人开发的,比如说混元大模型、DeepSeek大模型可能某个版本是由上一个版本开发的。不管怎么说,AI怎么发展它都离不开Data和算力,刚才那个视频里讲了什么是车,其实如果我们比喻说AI是车的话,其实Data就是油,如果AI是厨师,Data就是菜。所以数据其实决定着AI的上限和下限,它是AI的养分和基础原材料。 未来我们这些工程人员在数据这块进行布局,第一,拥抱云原生,所有的东西必须是云原生,架构必须云原生,资源结构,极致弹性。第二是要拥抱异构算力,DPU、CPU、NPU这些东西,核心领域要加强智能化的投入。第三是开放和统一,存储一定是开放的,使用一定是统一的。未来我们希望是Data+AI无缝统一的一体,这样才能提供好的端到端的服务。
吴炳锡:我觉得未来有几个方向是特别大的点,一是数据集市,现在停留在API的数据交流,未来会停留在大的数据集交换,这可能是依赖于腾讯云公有云的基础设施来帮我们提供。二海外也有这样的形态,Snowflake和DataMarket的概念,还有Databricks的Data clean room的概念立一个私有空间把相互共享的数据放在里面,然后相互数据拉平给AI使用。这里面来落地的话,包括在AI中我觉得会越来越快,而且在数据在中国来讲,如果要跟世界追平需要大家一起来补齐和一起努力。
END
关注腾讯云大数据╳探索数据的无限可能
⏬点击阅读原文
了解更多产品详情
分享给认识的人吧

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)