博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
阿里云流计算中维表join VS 流join
阅读量:6638 次
发布时间:2019-06-25

本文共 1302 字,大约阅读时间需要 4 分钟。

最近业务上使用blink进行清洗数据,使用到了双流join和维表join,今天有同学问我流join和维表join有什么区别。在此我做个简单的说明,描述不对的地方,欢迎大家纠正,后面补充。

流式计算过程中常见的需求是为数据流去补充字段。我们需要补充字段通常会在另一个流中,或者在一个动态表中(一张不断变化的表,静态表可以理解为它的特例)。在另一个流中,这个比较适合于使用流join,例于补齐包裹表中的包裹明细信息。在一个静态表中,使用维表join要更好些,例如包裹明细关联商品明细表去得到商品体积和重量。

流join

流join比较简单,它是两个流之间的join,和传统批上join一样,都是两张表之间的join(table a join table b on a.x=b.x)。具体如何流join语法,这里不做细说,可以查看官方文档。这里主要从下面几个问题进行说明。

1、我们在对A 和 B 进行join时,经常会有这样的疑惑。如果A中的数据先到达,B中的数据后到达,会不会形成堵塞,不会的话又是怎样操作的?

这个是不会的,在对A进行JOIN B时,如果B中的数据没有达到,会先把A中的数据保存到checkpoint中去,等待B到达时再进行join。这里需要注意下的是,采用A LEFT JOIN B的话,虽然B没有达到,但是他还是会把结果传递到下一个节点。

2、流中的撤回是如何实现的?是不是所有场景都可以

撤回(retraction)可以理解成传统意义上的更新操作。可以看下面的例子
image

没有撤回会导致结果不正确。在数据源入口处增加last_value操作就可以实现撤回。

create view table_count asSELECT word,count(num) AS cnt FROM table by wordcreate view table_lastValue as SELECTword,last_value(cnt) as cntFROM table_countGROUP BY word;

把上面图片中的SQL改成这样就行了。

SELECTcnt,count(word) as freqFROM table_lastValue GROUP BY cnt

image

注意: 如果采用的是metaq,并且已经消费了消息,这种情况下是没办法进行撤回的。

维表join

由于维表是一个不断变化的表,如果用传统的join是肯定不行的,因为我们不知道是join的哪一时刻。所以维表join在使用时要指定下的它的join时刻。详细的语法可以查看下官方文档。这里主要阐述下几个注意事项。

1、使用 JOIN 当前维表功能需要注意的是,JOIN行为只发生在处理的时刻(processing time),即使维表中的数据都被删了或者修改,之前JOIN流已经发出的关联上的数据也不会被撤回或改变。

2、维表JOIN的ON条件中一定要包括维表primary key的等值条件,因为需要根据key去查维表
3、在使用维表join时,如果数据量超过百万时,要使用LRU进行缓存,不要使用ALL。

此文章转载于智谨的原创!

你可能感兴趣的文章
07:AssetBundle框架整体设计
查看>>
01:RectTransform
查看>>
02:Anchor
查看>>
03:轴心点参数及获取UI宽高
查看>>
04:canvas的三种渲染模式
查看>>
SVN
查看>>
人生真正需要的是“逆向思维”
查看>>
【老鸟分享】Linux命令行终端提示符多种实用技巧!
查看>>
创业第一个月总结
查看>>
临时表删除
查看>>
Hadoop运维记录系列(一)
查看>>
你理解这些Cisco NAT分类和原理吗
查看>>
门户网站CDN实战优化教学案例分享
查看>>
发现和使用OneNote的计算器功能
查看>>
SAP R3 采购申请相关简单操作 :附Oracle后台数据库对应表明细。
查看>>
倾听是谈话中最基本的技巧
查看>>
KVM虚拟化技术之网卡流量聚合
查看>>
CentOS查看内核版本、系统版本、系统位数
查看>>
11G Oracle RAC添加新表空间时数据文件误放置到本地文件系统的修正
查看>>
Anroid Studio第七期 - 语音动画
查看>>