大发彩票网站网址—重庆大发时时彩计划

Spark Streaming 数据接收优化

时间:2020-01-24 17:16:20 出处:大发彩票网站网址—重庆大发时时彩计划

也却说 我大伙尽量让数据都占用Spark 的Storage 内存。法律妙招是把spark.streaming.blockInterval 调小点。当然也会造成1个多 副作用,却说 我input-block 会多。每个Receiver 产生的的input-block数为: batchInterval* 100/blockInterval。 这里假设你的batchInterval 是以秒为单位的。 blockInterval 我我随便说说告诉我会有啥影响。我我随便说说说白了,却说 我为了除理GC的压力。实时计算有1个多 很问题图片图片是GC。

一般在Spark Streaming中不建议把 Executor 的内存调的过多。对GC是个压力,大内存一FullGC比较可怕,很机会会拖垮整个计算。 多Executor的容错性也会更好些。

这篇内容是所许多人的因此 经验,大伙用的以前还是建议好好理解内部内部结构的原理,不可照搬

kafkaDStreamsNum 有你所许多人定义的,希望有十哪几个 个Executor 启动Receiver 去接收kafka数据。我的经验值是 1/4 个Executors 数目。机会数据前要做replication 一般,却说 原先内存最大都前要占到  1/2 的storage.

我发现在数据量很大的请况下,最容易挂掉的却说 我Receiver所在的Executor了。 建议Spark Streaming团队最好是能将数据写入到多个BlockManager上。

另外,务必你要系统设置 spark.streaming.receiver.maxRate。假设你启动了 N个 Receiver,没法你系统实际会接受到的数据过多超过 N*MaxRate,也却说 我说,maxRate参数是针对每个 Receiver 设置的。

从现在的API来看,是没法提供你这俩途径的。因此Spark Streaming 提供了一齐读多个topic的功能,每个topic是1个多 InputStream。 大伙都前要复用你这俩功能,具体代码如下:

热门

热门标签