祝大家新年快乐,有任何问题可与我联系:

近日在操作中需要将某个表的数据通过另一个表的数据来批量更新,因为数据量大,试了N多种方法(修改子查询、增加索引、删除索引、禁用触发器等等)都不理想,先看看最先的SQL如下:

update TF_USERS tt1

set (DGSID, VDATE) = (

select t4.dgsid, t4.vdate from(

select max(t2.dgsid) dgsid, t2.pid, t2.vdate from

(select t1.pid, max(t1.VDATE) VDATE from HC_DIAGNOSIS t1

where t1.pid in(

SELECT a1.pid FROM TF_USERS a1

left JOIN HC_DIAGNOSIS a2 ON a1.DGSID = a2.DGSID

where a1.dgsid is not null and a2.DGSID is null and a1.pid < 903425000

)

group by t1.PID) t3

left join HC_DIAGNOSIS t2 on T2.pid = t3.pid and T2.VDATE = T3.VDATE

group by t2.pid, t2.vdate

) t4 where tt1.pid = t4.pid

)

where tt1.pid in(

SELECT a1.pid FROM TF_USERS a1

left JOIN HC_DIAGNOSIS a2 ON a1.DGSID = a2.DGSID

where a1.dgsid is not null and a2.DGSID is null and a1.pid < 903425000

)

受影响的行: 624

时间: 124.632s

以上SQL平均每条持行时间需要0.2秒,然而我的数据库中有30多万数据需要更新,粗略计算下需要十几个小时来计算了,天啦!!!这怎么能行呢?通过简单的测试分析了下原因,主要是数据量太大、查询太复杂、消耗内存(这个只是我的猜测),最后还是决定用存储过程来实现。

然后上网找有没有简单的方法,突然眼前一亮,发现了“快速游标更新法”——它可以支持复杂逻辑的查询语句,更新准确,无论数据多大更新效率依然很高,但执行后不返回影响行数。这不就是我需要的方法么。具体格式如下:

begin

for cr in (查询语句) loop --循环

update table_name set ... --更新语句

end loop; --结束循环

end;

原理就是先查询出来需要更新的数据,然后通过循环去更新数据,这样每次只需更新一条记录,速度自然快,以下是修改后的SQL,速度杠杠滴。

begin

for cr in (

select t4.pid, t4.dgsid, t4.vdate from (

select max(t2.dgsid) dgsid, t2.pid, t2.vdate from

(select t1.pid, max(t1.VDATE) VDATE from HC_DIAGNOSIS t1

where t1.pid in(

SELECT a1.pid FROM TF_USERS a1

left JOIN HC_DIAGNOSIS a2 ON a1.DGSID = a2.DGSID

where a1.dgsid is not null and a2.DGSID is null and a1.pid < 903425000

)

group by t1.PID) t3

left join HC_DIAGNOSIS t2 on T2.pid = t3.pid and T2.VDATE = T3.VDATE

group by t2.pid, t2.vdate

) t4

) loop --循环

update TF_USERS set DGSID = cr.dgsid, VDATE = cr.vdate where pid = cr.pid;

end loop; --结束循环

end;

受影响的行: 1

时间: 4.151s

~谢谢打赏~手机请长按图片~

赞 赏

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐