partition

字节跳动开源自研 Shuffle 框架——Cloud Shuffle Service

字节跳动开源自研 Shuffle 框架——Cloud Shuffle Service

作者: 天天见闻 时间:2022-08-27 阅读: 204
8 月 25 日,字节跳动宣布, 正式开源 Cloud Shuffle Service。 Cloud Shuffle Service(以下简称 CSS) 是字节自研的通用 Remote Shuffle Service 框架,支持 Spark/FlinkBatch/MapReduce 等计算引擎,提供了相比原生方案 稳定性更好、性能更高、更弹性的数据 Shuffle 能力,同时也 为存算分离 / 在离线混部等场景提供了 Remote Shuffle 解决方案。 目前,CSS 已在 Github 上开源,欢迎感兴趣的同学一起参与共建!...
Spark如何对源端数据做切分?

Spark如何对源端数据做切分?

作者: 天天见闻 时间:2022-08-27 阅读: 207
简介: 典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文件对应一个partition?多个parquet文件对应一个partition?还是一个parquet文件对应多个partition?本文将从源码角度进行分析进而解答这些疑问。 引言 典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文件对应一个partition?多个parquet文件对应一个partition?还是一个parquet文件对应多个partition?本文将从源码角度进行分析进而解答这些疑问。...

年度爆文