統計学の中で「平均」というときに「相加平均」、「相乗平均」、「調和平均」という3種類がある。
この中で、「相加平均」と「相乗平均」について、その使い分けも含めて整理したいと思って、この記事をポストする(※1)。
まずは、それぞれの定義について整理し、そのあと2つの使い分けについて書く。
■相加平均とは
いわゆる小学校の時にならうもので、算術平均ともいう。
\(x_1\)から\(x_n\)までの\(n\)個のデータがあった場合、相加平均\(\bar{x}\)の求め方は
\[ \bar{x} = \frac{ x_1+ \cdots + x_n}{n}=\frac{1}{n} \sum^n_{i=1} x_i\]
となる。
■相乗平均とは
相乗平均は、幾何平均ともいう。
\(x_1\)から\(x_n\)までの\(n\)個のデータがあった場合、相乗平均\(x_G\)の求め方は
\[ x_G = \sqrt[n]{x_1\times \cdots \times x_n}= \sqrt[n]{\prod^n_{i=1}x_i}\]
となる。
■相乗平均を使う場合の具体例
そこで、相乗平均の出番である。
3年目は初年度に比べて4×3=12倍に伸びているなら、12の平方根(つまり相乗平均!)を求めて、
■相乗平均を使った方が「いいかもしれない」例
上記例以外にも、相乗平均を使った方がいい場合がある例を1つ示す。
それは「平均をとる対象が大きく変動するような場合は、相乗平均で平均をとった方が実感覚と合致する。」というものだ。
例えば、数値群(10,1,1000,1,10)の平均をとる場合を考える。
相乗平均をとると204.4となり、一つの外れ値の1000に大きく引っ張られているのが分かる。
一方、相乗平均をとると10となる。こちらの方が相加平均の204.4より、生データの1や10が大半を占める状況の実感覚に合っているように感じられる。
(※1)調和平均については、必要があれば追記することとする。
(参考) ここと、以下の書籍を参考にした。
この中で、「相加平均」と「相乗平均」について、その使い分けも含めて整理したいと思って、この記事をポストする(※1)。
まずは、それぞれの定義について整理し、そのあと2つの使い分けについて書く。
■相加平均とは
いわゆる小学校の時にならうもので、算術平均ともいう。
\(x_1\)から\(x_n\)までの\(n\)個のデータがあった場合、相加平均\(\bar{x}\)の求め方は
\[ \bar{x} = \frac{ x_1+ \cdots + x_n}{n}=\frac{1}{n} \sum^n_{i=1} x_i\]
となる。
■相乗平均とは
相乗平均は、幾何平均ともいう。
\(x_1\)から\(x_n\)までの\(n\)個のデータがあった場合、相乗平均\(x_G\)の求め方は
\[ x_G = \sqrt[n]{x_1\times \cdots \times x_n}= \sqrt[n]{\prod^n_{i=1}x_i}\]
となる。
余談だが、\(x_G\)の対数をとると、
\[\log x_G = \log \sqrt[n]{x_1\times \cdots \times x_n} = \frac{1}{n} (\log x_1 + \cdots \log x_n)\]
となり、相乗平均の対数は各データの対数の相加平均になっていることが分かって面白い。
■相加平均と相乗平均の使い分け
本題の使い分けだが、
平均値が必要な場合、「基本的には相加平均を使う」で構わない。ただし、データがある基準の比のデータである場合に、その比の平均をとる場合は相乗平均を使う必要がある。いう考え方で問題ない。相乗平均を用いる必要がある場合の例を示す。
■相乗平均を使う場合の具体例
ある会社の2年目の売り上げは初年度の4倍、3年目の売り上げは2年目の3倍でした。売り上げの伸び率の平均は?この時、単純に算術平均で求めると平均は3.5となる。しかし上記例では、3年目は初年度に比べて4×3=12倍に延びているのに対して、上記の算術平均を用いると、3.5×3.5=12.25伸びることとなり矛盾が生じる。
そこで、相乗平均の出番である。
3年目は初年度に比べて4×3=12倍に伸びているなら、12の平方根(つまり相乗平均!)を求めて、
- 1年目に、\(\sqrt {12}\)伸びる。
- 2年目に、\(\sqrt {12}\)伸びる。
のように、それぞれの年で均等な伸び率で伸びると考えるほうが、実情にあう。
そのため、ここでは、相加平均より相乗平均を使うべき例になる。
上記例以外にも、相乗平均を使った方がいい場合がある例を1つ示す。
それは「平均をとる対象が大きく変動するような場合は、相乗平均で平均をとった方が実感覚と合致する。」というものだ。
例えば、数値群(10,1,1000,1,10)の平均をとる場合を考える。
相乗平均をとると204.4となり、一つの外れ値の1000に大きく引っ張られているのが分かる。
一方、相乗平均をとると10となる。こちらの方が相加平均の204.4より、生データの1や10が大半を占める状況の実感覚に合っているように感じられる。
(※1)調和平均については、必要があれば追記することとする。
(参考) ここと、以下の書籍を参考にした。