めもめも ...〆(。_。)

認知心理学・認知神経科学とかいろいろなはなし。あるいは科学と空想科学の狭間で微睡む。

2025/11 10≪ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ≫12

2025/11/06 (Thu)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2010/11/12 (Fri)

下働き先で、えらい先生にちょっとした課題を出された。
それを要約＆再構築するとこんなかんじ。

先生「Medianはわかるね？」
自分「はい、中央値ですね、データ範囲のまんなかの」
先生「度数分布のグラフのどこで示されるかわかるね？」
自分「（x軸のまんなからへんにあたるとこさす）このへんですよね」
先生「Modeもわかるね？」
自分「最頻値ですね」
先生「グラフでいえば？」
自分「（山のてっぺんをさす）ここでしょう」
先生「じゃあ平均は？」
自分「全データ合計をサンプル数で割って・・・」
先生「ちょっと待った。それは計算方法だよね。平均は図でいうとどうなる？」
自分「えっと・・・数値としてはこのあたりですが・・・」
先生「平均がグラフにおいてどういう意味を持つのか、なぜ平均がデータの代表値たりえるのか、ちょっと考えてみて」

ということですわ。
考えてみたら、中央値や最頻値を代表値に用いたほうがいい場合とその理由というのはいっぱい解説されているけど、なぜ平均値が代表値になるのかってあんまり考えたことなかった。
はたらきながら考えたけど、自力では正解に至らなかった。
くやしいので答え隠す。
答え知らないひとはちょと考えてみてー。

さて解答編。

わたしもいくつかの答えは考えた。

グラフの面積を二等分？
→はずれ。それは最頻値です。

正規分布に近似した場合の・・・
→はずれ。そもそも正規分布なら平均値＝中央値＝最頻値。

グラフの傾きを各点でとって・・・（ようするに微分）
→はずれ。それも最頻値

重み付け？？？
→惜しい。もうちょっと整理してみよう。

ということで正解を教えてもらった。
要するに、データの絶対値がでかいところにひっぱられるのだから、平均はデータの「重心」にあたる、と。
ヒストグラムをそのまんま天秤にのっけて、バランスがとれる点＝平均。

あとで『心理学のためのデータ解析テクニカルブック』を確認してみると、もっと学術的に「平均をデータの代表値とする意義」が書いてあった。
平均値は、偏差｛（１このデータの値）－（平均値）｝の2乗和を最小にする値である。
つまり、データを１つの値で代表させようというときに、平均は代表値からの外れっぷり（＝偏差）が最小になる、つまりなるべく「外れ値」を出さない代表値になる。
だからデータ全体を代表するのに使いやすい。
と、いうことだったのさ！

うーむ。
「基本」と思って理解してるつもりでも概念としてぜんぜんわかってなかったなー自分。
この仕事引き受けてよかった。
自分の勉強になった。

微妙に愚痴だが、「偏差」を説明しようとして、「このデータの値から、平均値を引き算すると、このデータは平均とどれくらい違うかがわかるでしょ？」という説明をしたら理解できない学生がいた。
（データ）－（平均）の概念をこれ以上噛み砕かねばならんのか・・・。
ちうか「引き算」＝「違い」ってわからんかな。ことばで言うからわからんのかな。
次回からはちっさいノートを持ち歩いて、理解できてない学生には絵（数直線ならいけるか？）で解説してみようかな。
んでもそういう初歩的な概念でつまづいてる子に時間をかけてたら、既に課題などに手をつけてる他の子のフォローができないのよなー。
どうしたらすばやく理解してもらえるのか。
こっちは次からもひっぱられる課題になってしまった。
うーむ。勉強になるなあ・・・

がっつり Trackback() Comment(1)

それって要するに

BLUEですよね。

Best Linear Unbiased Estimator。

by viking URL 2010/11/18(Thu)15:22:54 編集

Re:それって要するに

コメントありがとうございます。
・・・文系なもので、Best Linear Unbiased Estimatorというのがわからずぐぐってきました。
http://www1.parkcity.ne.jp/yone/math/mathB03_02.htm
を読むと、線型であること・推定量の平均＝真の値・分散最小という条件を満たすこと、ということなのですね。
↑のサイトで述べられている
（１）説明変数Xは確率変数ではない。
（２）誤差eの平均はゼロである。（すべてのiについて、E(ei)=0）
（３）誤差eの分散は均一である。
　　　（すべてのiについて、V(ei)=σ2（一定））
（４）誤差eに系列相関、自己相関がない。
　　　（すべてのi,jについて、Cov(ei,ej)=0）
（５）説明変数に多重共線性がない。
　　　（多重回帰のときのみ必要な仮定）
の条件って、そのまま分散分析など「平均値を用いて行う検定」を適用できるかどうかの条件ですよねー。
ということは、平均と代表値ということでいえば、「平均がデータの代表値としてふさわしい場合にt検定や分散分析を行ってよい」ということなのですね。

よくよく考えれば自明のことなのですが、あまり深く考えずに分散分析をしてきたものですから、今更ながら鱗ぽろりです。
勉強不足を露呈してしまってお恥ずかしい限りです。

2010/11/18 21:36

この記事にコメントする

お名前
タイトル
メールアドレス
URL
カラー
絵文字
コメント
非公開	管理人のみ閲覧できます
パスワード
	* コメントの編集にはパスワードが必要です