diff --git a/ch-dask-dataframe/shuffle.ipynb b/ch-dask-dataframe/shuffle.ipynb index 8ae1bdf..a087466 100644 --- a/ch-dask-dataframe/shuffle.ipynb +++ b/ch-dask-dataframe/shuffle.ipynb @@ -126,7 +126,7 @@ "source": [ "## 案例分析:`groupby`\n", "\n", - "我们以 `groupby(by=key).sum()` 为例,了解其背后的 Shuffle 过程。{numref}`fig-dataframe-groupby` 展示了计算过程,它主要有三个阶段:分组、组内聚合(比如 `sum`)、组间整合。\n", + "我们以 `groupby(by=key).sum()` 为例,了解其背后的 Shuffle 过程。{numref}`fig-dataframe-groupby` 展示了计算过程,它主要有三个阶段:分组(Split)、组内聚合(Apply Aggregation,比如 `sum`)、组间聚合(Combine)。\n", "\n", "```{figure} ../img/ch-dask-dataframe/groupby.svg\n", "---\n", diff --git a/drawio/ch-dask-dataframe/groupby.drawio b/drawio/ch-dask-dataframe/groupby.drawio index f803ff5..b6c367a 100644 --- a/drawio/ch-dask-dataframe/groupby.drawio +++ b/drawio/ch-dask-dataframe/groupby.drawio @@ -1,435 +1,435 @@ - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + diff --git a/img/ch-dask-dataframe/groupby.svg b/img/ch-dask-dataframe/groupby.svg index b683ab9..688563d 100644 --- a/img/ch-dask-dataframe/groupby.svg +++ b/img/ch-dask-dataframe/groupby.svg @@ -1,1616 +1,4 @@ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + + + +
key
key
data
data
A
A
1
1
B
B
2
2
C
C
3
3
A
A
4
4
B
B
5
5
C
C
6
6
key
key
data
data
A
A
1
1
A
A
4
4
key
key
data
data
B
B
2
2
B
B
5
5
key
key
data
data
C
C
3
3
C
C
6
6
key
key
data
data
A
A
5
5
key
key
data
data
C
C
9
9
key
key
data
data
B
B
7
7
key
key
data
data
A
A
5
5
B
B
7
7
C
C
9
9
输入
输入
组间聚合
组间聚合
组内聚合
组内聚合
分组
分组
Text is not SVG - cannot display
\ No newline at end of file