SSブログ

統計 回帰直線と相関係数、そして、決定係数R² [高校の統計]

統計 回帰直線と相関係数、そして、決定係数


かりに次のようなn個の2次元の点で表されるデータがあるとする。

  

このとき、回帰直線の傾きay切片は

  

である。

回帰直線の方程式は

  

ここではそれぞれxyの平均であり、xの標準偏差、共分散で、

  statics-kaiki-s-01.png

相関係数r

  statics-kaiki-s-02.png

である。


この回帰直線によってxの値から予測されるyの予測値はは①を使って

  

と計算される。

以上を説明したところで、次の等式を証明することにする。

  


【証明】

②の左辺−②の右辺
  statics-kaiki-s-03.png

上の式に

  

を代入すると
  statics-kaiki-s-04.png

よって、

  

(証明終了)


  

この式を右辺第1項

  

は実際の「データと予測値の差」、残差の2乗を足しあわせたもの、残差平方和。要するに、予測のハズレ具合をあらわしている。

そこで、回帰直線の予測の正確さを表す次の量を定義すると

  

となる。

つまり、相関係数の2乗は回帰直線(回帰曲線)の予測の精度を表す一つの尺度と考えることができ、8種類ある決定係数の一つである。また、決定係数は寄与率とも呼ばる。

statics-kaiki-tab-01.png右の表は「ねこ騙し数学」の訪問者数とページビューのデータである。

この散布図と回帰直線、相関係数、決定係数は次の通り。

参考までに、横軸に訪問者数、ページビューの実際の値と回帰直線の方程式からの予測値との差、つまり、残差を縦軸にとった、残差プロットも示しておく。

statics-kaiki-01.png


statics-kaiki-02.png


第19回 抜き取り検査 [高校の統計]

第19回 抜き取り検査


問題1 極めて多数の製品の山がある。この製品の山の全体としての合格、不合格を、全体の中から5個抜き取って検査し、その5個中の不良品が1個以下ならば合格、2個以上ならば不合格と定めることにする。

不良率(不良品の個数と全体の個数との比)がpである製品の山が検査に合格する確率をf(p)とするとき、次の問いに答えよ。

(1) f(p)pの式であらわせ。

(2) f(p)pの減少関数であることを証明せよ。

(3) を求めよ。

(4) f(p)の概形をかけ。

【解】

(1) 合格するのは、不良品が0個、1個の場合だから、合格する確率は

  


(2) f(p)を微分すると

  

0<p<1f'(p)<0だから、f(p)は単調減少する。

(3) ①にp=00.31を代入すると

  

②にp=01を代入すると

  


(4) 下図

statics-graph-19-01.png

(解答終了)



問題2 ある試験で、出題3問中2題以上を正解すれば合格するという。各問を正解する確率がいずれもpである生徒が、この試験を受けるとき、

(1) この生徒が合格する確率f(p)を求めよ。

(2) f(p)+f(1−p)およびf(0.2)の値を求めよ、f(p)のグラフをかけ。

(3) f(p)≧0.9になるようなpの最小値p₀を小数点第2位まで求めよ。

【解】

(1) 合格するのは、正解数が2の場合と3の場合だから、合格する確率は

  


(2)
   

f(p)を微分すると

  

だから、0<p<1f'(p)>0なのでf(p)は単調増加。

したがって、グラフは次のようになる。


statics-graph-19-02.png

(3) グラフを見ると、p₀≒0.8っぽいね(^^

試しに計算してみると

  

そこで、とおくと、

  

h≒0だから、①のの項は無視でき、①は次のように近似できる。

  

よって、

  

したがって、p₀=0.80

念のために

  

(解答終了)

ちなみに、



問題3 きわめて多数の製品の一山をロットという。同一個数の製品からなるロットがきわめて多数であるとき、これらのロットから大きさ5の標本を抜き取り、その中の不良品個数が0こであれば標本はもとに戻してそのロットはそのまま出荷し、不良品個数が1個以上であればそのロットは全数検査にかけロット中の不良品を全部良品にかえて出荷する。もとのロットの不良率がすべてpであるとした場合、出荷される全ロット中に含まれる製品の不良率f(p)はどうなるか。次の問に答えなさい。

(1) p=0p=1のときf(p)の値はそれぞれどうか。

(2) f(p)pの式であらわせ。

(3) f(p)のグラフをかき、f(p)を最大にするpの値を示しなさい。

【解】

(1) p=0のとき、製品はすべて良品なのでf(p)=0である。

p=1のとき、ロット全体が不良品でそれがすべて良品に取りかえられるので、f(p)=1である。


(2) 出荷される製品に不良品が含まれるのは、抜き取った5つすべてが良品である場合。

抜き出された5つがすべて良品である確率は

このときpの割合で不良品が混じっているので、求める確率は

  


(3) 増減を調べるために、f(p)=p(1−p)⁵を微分すると

  

したがって、p=1/6のときに極大かつ最大で、その値は

  

また、

  

したがって、f(p)p=1/3で変曲点を持ち、

  

よって、グラフは次のようになる。

statics-graph-19-03.png

(解答終了)

統計とは名ばかりで、実はどれも微分の問題であった(^^)


タグ:統計

統計 相関係数についてのお話 [高校の統計]

統計 相関係数についてのお話


例えば、下の表に示すXYのデータがあるとする。



このデータをもとに下の表を作り、平均、(共)分散、標準偏差を求める。




なお、上の表でE(x)E(y)は、xyの平均(期待値)であり、

  

である。
したがって、相関係数は

  


あるいは、共分散xyの標準偏差を用いて

  

である。


statics-yodan-graph-01.png以上のことから、

回帰直線の傾きa

  

y切片b

  

したがって、回帰直線の方程式は

  

である。

したがって、このxyの間には正の相関がある。



もっともらしく聞こえることだろう。

しかし、この(x,y)の値はコンピュータ上で乱数を発生させたもので、このxyには何の関係(無相関)もない。
この例のように、xy010の値をとるまったくランダムな変数にもかかわらず、データの数が少ないと、相関係数を計算すると相関があるかのような結果が出ることがある。


なお、相関係数によって、相関の強さは、たとえば、次のように分類される。

statics-yodan-tab-03.png

これはおおよその目安であり、本によって分類の仕方が異なるので、あくまで一例である。


statics-yodan-graph-02.png次に、データの数を10組から200組に増やすと(上の例は、最初の10組を抜き出したもの)、散布図は右図のようになる。
この結果を見ると、xyの間に相関がない、無相関であることがわかると思う。


母集団の相関係数ρ=0のときでも、(標本の)相関係数rを計算をすると、r=0.5程度の値が出ることがあるので、相関係数rを計算しただけで相関の有無を判断することは危険という話でした。


 


第18回 統計のまとめ [高校の統計]

第18回 統計のまとめ


§1 確率変数と確率分布

(1) 確率変数と確率分布

変量Xのとる値to-matome-007.png、およびXのこれらの値が取りうる確率to-matome-006.pngが定まっているとき、変量Xを確率変数といい、の対応関係を確率分布という。


(2) 確率変数の平均と標準偏差

① 平均(値)・期待値
  statics-18-01.png

② 標準偏差σ

  statics-18-02.png

問題1 つぼの中に5個の球がはいっている。そのうち、3球には10点、他の2個の球には50点の印がついてある。ツボの中から2個の球を同時に取り出す。その2個の球の和を表す確率変数をXとする。このとき

(1) Xの確率分布を求めよ。

(2) Xの平均(期待値)、および、分散を求めよ。

【解】

(1) X=20の確率は

  

X=60の確率は

  

X=100の確率は
  

statics-tab-18-01.png

(2) 平均値m

  statics-18-03.png

分散σ²

  statics-18-04.png

(解答終了)



分散を求めるために、

  

を使うのならば、

  statics-18-05.png


§2 二項分布


2項分布
  statics-18-06.png

においては

  



問題2 3枚の硬貨を投げる試行を500回繰り返すとき、2枚が表、1枚が裏の出る回数をXとする。Xの確率分布の平均と標準偏差を求めよ。

3枚の硬貨を投げたとき、2枚が表、1枚が裏である確率p
  statics-18-07.png

したがって、

  

2枚が表、1枚が裏の出る回数Xは二項分布に従うので、平均値mと標準偏差σ

  statics-18-08.png

(解答終了)



§3 チェビシェフの定理


平均値m、標準偏差σの分布では
  to-matome-001.png

 

問題3 ある学級の生徒数は450人で、英語の平均点は64点、標準偏差は8点である。点数が40点から88点までのものは最低何人くらいいると判断できるか。

【解】

to-matome-005.pngからto-matome--006.png

これにm=64σ=8を代入すると、

  to-matome-004.png

問題の条件より40≦x≦88だから

  to-matome-003.png

よって、チェビシェフの不等式より

ゆえに、最低400人。(解答終)

 

§4 確率密度関数と正規分布

(1) 確率密度関数

変量Xの変域をa≦X≦b、確率密度関数をf(x)とすると

  statics-18-10.png

問題4 変量Xの変域が0≦X≦1で、確率密度関数が

のとき、

(1) 定数aの値を求めよ。

(2) の値を求めよ。

(3) Xの平均値mと分散σ²を求めよ。

【解】

statics-18-11.png
(解答終了)


(2) 正規分布

確率変数Xの確率分布が

  statics-18-12.png

であるとき、Xの確率分布は正規分布であるといい、であらわす。

特に、平均が0、標準偏差1の正規分布
  statics-18-13.png

を標準正規分布という。

ここで、mXの平均値、σは標準偏差である。

  

で、区間が区間にうつるとき、
  statics-18-14.png

statics-graph-18-01.png


statics-tab-18-02.png



問題5 ある学年の英語と数学の成績が右表であるとき、英語76点、数学73点とった生徒は、どちらの科目のほうが学年の中で上位であると考えられるか。


statics-tab-18-04.png

【解】

英語の標準測度

  statics-18-15.png

数学の標準測度
  statics-18-16.png

したがって、数学のほうが上位である。

(解答終了)

 


問題6 あるクラスの成績Xの平均点をm、標準偏差をσとし、Xはほぼ正規分布をなすとき、成績をm−1.5σm−0.5σm+0.5σm+1.5σを境として5つの階級にわかち、成績のよい順にABCDEをつけるとき、かくかいきゅうにはいる生徒の割合を%で示せ。また、この場合、成績の平均は71.4、標準偏差を8.2とすると、成績が87点、74点、56点のものはどの階級に入るか。

statics-tab-18-05.png

【解】
  statics-18-17.png

であるから、

  

と置くと、
  statics-18-18.png

となる。

したがって、
  

また、

  

したがって、各階級の人数の割合は次のようになる。

 

m=71.4σ=8.2のとき、

  statics-18-22.png

だから、87点はA、74点はC、56点はE

(解答終了)

 


§5 2項分布と正規分布の関係


二項分布に従う確率変数Xは、nが大きいとき正規分布に従うと考えられる。

したがって、

  

は正規分布にしたがうと考えてよい。



問題7 さいころを1800回投げるとき、1の目が出る回数Xが270から330回までの間にある確率を求めよ。

【解】
  

Xは二項分布に従うから、Xの平均値mと標準偏差は

  statics-18-23.png

nが大きいから、Xは正規分布に従うと考えて、標準化すると

  statics-18-24.png

したがって、

  

よって、求める確率は0.94

(解答終了)



6 母平均の推定(区間)


大きさnの標本平均の分布は、母集団の平均(母平均)m、標準偏差の正規分布と考えられる。

したがって、

平均値mの信頼度95%の信頼区間は

  

平均値mの信頼度99%の信頼区間は

  

である。

ここで、は標本の平均である。

σが未知のとき、標本の標準偏差sσの代わりに用いる)


問題8 大きさ100の標本の標本平均は56.3で標本標準偏差は10.2である。このとき、母平均mの信頼区間を95%で求めよ。
【解】

問題の条件より、n=100

また、標本の大きさnが100と大きいので母集団の標準偏差σ

  

したがって、
  statics-18-25.png

(解答終了)


 


§7 検定

「母平均がmである」という仮説を立てた場合、母集団から任意に抽出した大きさnの標本平均がならば、まず

  

を求め、


①両側検定

  優位水準95%のとき、|z|≧1.96のとき仮説を棄却する。

  優位水準99%のとき、|z|≧2.58のとき仮説を棄却する。


②片側検定

  優位水準95%のとき、z≧1.65(右側検定)、z≦−1.65(左側検定)のとき仮説を棄却する。

  優位水準99%のとき、z≧2.33(右側検定)、z≦−2.33(左側検定)のとき仮説を棄却する。


問題9 A県のC市で高校3年生男子の中から100名を任意抽出して平均身長を求めたところ169.8cmであり、またその標準偏差は5.8cmであった。

これは、A県における高校3年生男子の平均身長168.6cmよりも高いと判定されるか。

優位水準95%と99%の検定でそれぞれ判定せよ。

【解】

C市の高校3年生男子の平均身長は168.6cmである」という仮説を立てる。

  statics-18-26.png

優位水準95%の片側検定では、z=2.07>1.65だから仮説は棄却されて、C市の高校3年生男子の平均身長が高いと判定される。

優位水準99%の片側検定では、z=2.07<2.33だから仮説は棄却されず、C市の男子の平均身長が高いとは認められない。

(解答終了)


第17回 相関の補足 [高校の統計]

第17回 相関の補足


  

の導出過程を詳しく説明する。


  

A)に関しては

  

だから、(A)式は

  

になる。

B)に関しては

  

さらに、

  

を使うと、(B)

  


以上から、abに関する次の連立方程式が得られる。

  

①の両辺をnで割ると、

  

①’のを消去するためにとすると

  

①’−②’

  

また、

  

だから、③は

  

②にこの結果を代入すると、

  


したがって、

  


第17回 相関 [高校の統計]

第17回 相関


§1 相関と相関図


statics-graph-17-01.png2種類のデータの相関を調べるために、横軸と縦軸を使ってデータをプロットしたものを散布図という。

2つの異なるデータの系列

  

があり、それを座標であらわす。

が増加するとも増加する傾向があるとき、正の相関があるといい、逆に、が増加するとも現象する傾向があるとき、負の相関があるという。



§2 共分散と相関係数

(x,y)n組のデータをとすると、2つの変数の間の関係を調べるものに共分散相関係数があり、それぞれ、次のように定義される。
  statics-17-01.png

ここで、は、それぞれ、xyの標準偏差である。


問1 (1)式を証明せよ。

【解】
  

(証明終わり)



仮に

  

という関係があるとすると、
  

だから、

  

となる。

つまり、に比例するとき、比例係数の正負に対応して相関係数は1、−1になる。



問2 下の表は10人の生徒が数学と理科の小テスト(10点満点)を受けたときの得点である。相関係数を求めよ。

statics-tab-17-01.png

【解】
数学の得点をx、理科の得点をyとする。



上の表から、数学の平均点、理科の平均点

  

分散は

  

共分散は

  

したがって、相関係数r

  statics-17-10.png

(解答終了)

また、相関係数は次の式で計算することができる。

  

【別解】



上の表より、

  

したがって、相関係数rは(3)より

  statics-17-11.png

(解答終了)

 


§3 回帰直線


変量xの値が、変量yの値がであるとする。このとき、平面上の点

  

に対してy軸方向の距離が最小となる直線(回帰直線)の方程式

  

を考える。

もし回帰直線の方程式が求められているとすればの予測値をとすれば

  

となる。

しかし、に対する実際の測定値はであり、2つの値の差を予測誤差といい、

  

である。

ここで

  

を最小にするようにabの値を定め、最適合直線を求めることにする。

  

とおくと、極値をとる点では
  

である。

したがって、
  

となり、

  

これをabについて解くと
  statics-17-09.png

よって、回帰直線は

  


問2の場合、だから



statics-graph-17-02.png




第16回 平均値と比率の検定 [高校の統計]

第16回 平均値と比率の検定


平均値の検定

母平均がmであるという仮説を立てた場合、母集団から抽出した大きさnの平均値がならば

  

(ⅰ)優位水準5%のとき|z|≧1.96ならば仮説を棄却する

(ⅱ)優位水準1%のとき|z|≧2.58ならば仮説を棄却する


比率の検定

母比率がpであるという仮説を立てた場合、母集団から任意に抽出した大きさnの比率がならば

  

を求めて、平均値と同様に検定する。

なお、母集団の標準偏差σが未知のとき、標本の標準偏差sσの代わりに用いる。


 


問題1 ある工場で生産されている1kg入の砂糖を64袋任意に抽出して調べた結果、平均値987.2g、標準偏差40.8gであった。この製品の重量表示は正しいといえるか。優位水準5%で検定せよ。

【解】

「表示は正しい」と仮定すると、だから

  

よって、仮説は棄却される。

したがって、表示は正しくないと判断する。

(解答終了)

 


問題2 ある工場での過去の資料によれば、7mmのボルトの企画の標準偏差は0.3mmである。ある日の製品から無作為に抜き取った100個の平均が7.06mmであった。この日の製品は平常と比べて普通のできといえるか。優位水準5%で検定せよ。

【解】

「普通のでき」という仮説を立てると、だから、

  

よって、仮説は棄却される。

したがって、普通のできでなかった。

(解答終了)

 


問題3 AB品種の鶏は同じ条件で、孵化してから5ヶ月で3kgに成長する。この2つの品種から得られた雑種第1代から任意抽出した100羽について、前と同じ飼育条件で調べて、負荷5ヶ月の生育状態は

  

であった。生育のよい品種が得られたと判断してよいか。優位水準5%で推定せよ。

【解】

「もとの品種と同じ生育条件である」という仮説をたてると、

  

だから、優位水準5%で仮説は捨てられない。

すなわち、生育のよい品種が得られたと断定できない。

(解答終了)


第15回 (仮説)検定 [高校の統計]

第15回 (仮説)検定


ある事柄が成り立つという仮説を立て、その仮説に基づいて計算した確率がある基準の確率(優位水準または危険域)より小さいとき、その仮説は間違っていると判断し、そうでないときはその仮説は正しいと判断する。

このような判断を検定という。

危険率、または、優位水準は、通常、5%や1%が採用される。



問題1 ある町で3000人のうち1000人が流感にかかった。しかし、毎日冷水まさつをしていた10人の学生のうちで、流感にかかったものは2人だけであった。冷水まさつの効果があるといえるか。危険率5%で判定せよ。

【解】

「冷水まさつの効果はない」という仮説を立てると、10人の学生のうち流感にかかったものが2人以下である確率は

  

したがって、「冷水まさつの効果はない」という仮説は棄却できない。

つまり、「冷水まさつの効果はない」。

(解答終了)

 


問題2 Aは、これまで3題のうち2題くらいの割合でしか問題が解けなかったが、今回のテストでは、これまでの同程度の問題に対して、8題のうち7題を解くことができた。このことから、Aの実力が上がったと判断してよいか。

さらに、次回のテストにも、これと同程度以上の好成績を上げたとしたらどうか。

危険率5%で検定せよ。

【解】

Aの実力が上がっていない」と仮定すると、問題を解く確率は2/3だから、8題のうち7題以上解く確率は

  

だから、「Aの実力が上がっていない」という仮説は棄却できず、「Aの実力が上がった」と判断できない。

2回続けて8題のうち7題以上解ける確率は

  

したがって、「Aの実力が上がった」と判断できる。

(解答終了)


1回だけだと、Aが8題のうち7題解くことができる確率は約0.2だから十分に起こりうる。
しかし、2回続けて起きるとなると、確率が約0.040.05よりも小さく、このようなことはまず起きない。だから、「Aの実力が上がっていない」という仮説は棄却されるというわけ。



問題3 ある政治上の意見で、有権者10人を任意抽出して意見を求めたところ7人までが賛成であった。これによって有権者の過半数であるといえるか。

また、10人のうち9人まで賛成であったとするとどうか。

優位水準5%で検定せよ。

【解】

「有権者の賛成反対が五分五分」と仮定すると、10人のうち7人以上が賛成する確率は

  

よって、「有権者の賛成反対が五分五分」という仮説は棄却できない。

したがって、「賛成が有権者の過半数」であるとは言えない。

同様に、10人のうち9人が賛成である確率を求めると、

  

よって、「有権者の賛成反対が五分五分」という仮説は棄却できる。

したがって、この場合、過半数であるといえる。

(解答終了)

ちなみに、8人の場合

  

だから、「有権者の賛成反対が五分五分」という仮説は棄却できない。

 


問題4
(1) さいころを4回振ったら1の目が3回出た。このさいころは1の目が出やすいと判断してよいか。危険率5%で検定せよ。

(2) さいころを180回振ったら1の目が48回出た。このさいころは1の目が出やすいと判断してよいか。危険率1%で検定せよ。

【解】

(1) 「さいころが正しい」と仮定すると、4回投げて1の目が3回以上出る確率は

  

よって、「さいころの目が正しい」という仮説は棄却される。

つまり、1の目が出やすい。


(2) 「さいころが正しい」と仮定する。Xを1の目が出た回数とすると、Xは二項分布に従うので、平均値m、標準偏差σ

  

nが大きいから、Xの分布は平均m=30、標準偏差σ=5の正規分布に近似できる。

そこで、

  

とおくと、Zは標準正規分布N(0,5)に従う。

X=46とおくと

  

したがって、

  

よって、「さいころが正しい」という仮説は棄却される。

したがって、「1の目が出やすい」。

(解答終了)

Xが正規分布N(30,5²)に従うとすると、1の目が出る回数は信頼度99%で

  

出たとしても最大で約43回。

46回は多すぎるというわけ。



問題5 豌豆(えんどう)の交配で、黄色と緑色の豆のできる割合は、メンデルの法則に従えば3:1である。この実験で黄色が428個、緑色が132個得られたという。この結果はメンデルの法則に一致しているといえるか。優位水準5%で検定せよ。

【解】

メンデルの法則に従うという仮説を立てると、黄色のえんどう豆の個数Xは二項分布に従い、平均値mと標準偏差σ

  

したがって、

  

したがって、優位水準5%で「メンデルの法則に従う」という仮説は捨てられない。

すなわち、「メンデルの法則に従う」と考えられる。

(解答終了)


第14回 推定の問題 [高校の統計]

第14回 推定の問題


(1) 母平均の推定

任意に抜き取ったn個の標本平均を、標準偏差をsとすると、母平均mは、

95%の確率で

  

99%の確率で

  

である。

(2) 母比率(母集団の比率)の推定

母集団の比率をp、標本の大きさをn、比率をとすると、95%の信頼度で

  

である。



問題1 ある工場の電球の寿命の標準偏差が100時間であることが知られている。25個の電球の平均寿命が1800時間のとき、次の問いに答えよ。

(1) 母集団の電球の平均寿命を95%の信頼度で推定せよ。

(2) 母集団の電球の平均寿命が99%の信頼度で推定しようとすると信頼区間の幅を信頼度95%と同程度におさえるためには、何個以上の電球の平均寿命を求めなければならないか。

【解】

(1) だから、

  


(2) 求める個数をn個とすると、99%の信頼区間は

  

である。

したがって、

  

よって、44個以上。

(解答終了)



問題2 ある県の高校入試の数学の成績は、予備調査の結果から標準偏差19点と予想されている。この予想を正しいものとし、母平均の信頼度を95%で推定するとき、次の問いに答えよ。

(1) 任意抽出した100人の平均点をとするとき、母平均mとしたときの誤差はおよそどれくらいか。

(2) 誤差を2点以内とするには、抽出する標本の大きさnをどれくらいにしたらよいか。

【解】

(1) 95%の確率で

  

したがって、2.94

(2)

  

したがって、217人以上。

(解答終了)



問題3 平均m、分散4の正規母集団から大きさnの任意標本を抽出して、その標本平均をmとするとき、次の問いに答えよ。

(1) n=100のとき、信頼度95%でmの信頼区間をと求めよ。

(2) となる確率が95%以上にあるようにしたい。nをどのようにすればよいか。

【解】

(1) 分散が4だから、標準偏差s=√4=2

したがって、

  


(2)

  

s=2だから

  

よって、nを62以上にすればよい。

(解答終了)


問題4 ある金属の棒の長さを10回測定して次の結果を得た(単位cm)。
24.3,24.4, 23.9, 24.5, 24.0, 24.2, 24.1, 24.4, 24.0, 24.2

95%の信頼度で棒の真の長さを推定せよ。

【解】

statics-tab-14-01.png棒の真の長さは、棒の長さを非常に多い回数で測定した値の平均値mと考える。

右の表から

  

よって、

  

したがって、24.2±0.12(cm)

(解答終了)


標準偏差sを求めるのに、公式

  

を使った。


第13回 推定 [高校の統計]

第13回 推定


§1 母平均の推定


標本平均を用いると、標本調査から母集団の平均値を推定することができる。

いま、母集団からn個の標本を抽出し、標本平均、標本標準偏差sを得たとする。

母集団の平均をm、標準偏差をσとすると、標本平均の分布は、平均m、標準偏差の正規分布と考えてよいから、

  

は、標準正規分布N(0,1)に従い、正規分布表から

  

である。

したがって、95%の確実性で

  statics-13-00.png  

nが大きければ、母集団の標準偏差σは標本標準偏差sに近いと考えてよい。

したがって、
  statics-13-01.png  

このとき、上式が成立する確率は0.95だから、これを信頼度95%の推定といい、mが取りうる範囲を信頼区間といい、確率95%を信頼度という。

同様に、99%の信頼区間は

  

である。

 


問1 全国の中学3年男子から2000人を抽出し、その身長を調べたところ、平均値が161.5cm、標準偏差が6.5cmであった。信頼度95%で全国の中学3年男子の身長を推定せよ。

【解】

母集団の平均値をmとする。標本平均s=6.5(cm)n=2000だから

  statics-13-02.png

よって、161.5±0.28cmである。

(解答終了)


問2 ある都市の16歳の男子の中からまったく無作為に200人を抽出して、身長に関する下表のような度数分布を得た。これによって、この都市の16歳の男子の平均身長を信頼度95%で推定せよ。

(解答)


上の表から標本平均、標本標準偏差s=√36=6(cm)

n=200だから
  statics-13-03.png

ここで、

  

だから、165.5±0.8cm164.7166.3cm

(解答終了)

 


問3 ある市の高校3年生4万人に数学のテストを行った。この成績を母集団として、大きさ900の標本を選んだところ、その平均値が58.6点、標準偏差が12.0点であった。母集団の平均値を95%の信頼度で推定せよ。

【解】

標本平均、標本標準偏差s=12.0、標本の大きさn=900だから、母集団の平均値をmとすると、

  statics-13-04.png

だから、57.859.4点。

(解答終了)


問4 過去の資料によると、17歳男子の分布は、標準偏差5.8kgであることが知られている。95%の信頼度で17歳男子の平均体重を0.1kgの精度で求めるためには、何人の任意標本を選んだらよいか。

【解】

95%の信頼度の誤差は

  

だから、

  

になるように標本の大きさnを定めればよい。

よって、

  

したがって、約13,000人。

(解答終了)


n≧113.68²ではなく、n≧114²=12996としたほうがいいのかもしれないが・・・。



§2 母比率(母集団比率)の推定


工場で作られた製品の不良率を標本調査することによって95%の信頼度で推定すると場合について考えることにする。

母集団の製品全体の不良率をp、大きさnの標本中に含まれる不良品の個数を確率変数Xとすると、Xの分布は平均np、標準偏差の2項分布となる。

nが大きいとき、二項分布B(n,p)は正規分布とみなすことができるので、不良品の個数Xは、信頼度95%をもって

  statics-13-05.png

となる。

また、標本の不良率は

  

だから、
  statics-13-06.png

nが大きいとき、根号内のpに代用できるので、

  

となる。

以上のことをまとめると、次のようになる。


比率の推定

大きさnの標本中に、条件Aを満たすものがr個あれば、標本比率

  

に対して、母集団における条件Aを満たすものの比率は

  

の信頼区間にある。
なお、信頼度99%ならば

  

である。


問1 ある工場で、製品の中から任意に200個を抽出して調べたところ、30この不良品があった。製品全体の不良率pを、信頼度95%で区間推定せよ。

【解】

  

よって、信頼度95%で

  

(解答終了)

 


問2 ある新聞の世論調査で、有権者1000人についてある政党を支持するか否かについて調べたところ、そのうちの576人が支持者であった。有権者全体のうちその政党を支持するものの割合を、信頼度99%で推定せよ。

【解】
  statics-13-07.png

(解答終了)


信頼度95%ならば





この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。