めもめも ...〆(。_。)

認知心理学・認知神経科学とかいろいろなはなし。あるいは科学と空想科学の狭間で微睡む。

2025/08 07≪ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ≫09

2025/08/24 (Sun)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2008/08/25 (Mon)

今日も統計の本とにらめっこ。
こないだひとつのコメントに反論する論拠を手に入れたものの、もいっこ難関がある。
信頼性係数に関して、だ。
私が使った課題は新しくつくったものなので、その妥当性と信頼性が問われる。
それだけなら、まあ「ふつーのはなし」なんだが。
「信頼性」の示し方に関して、やたらめったらこまかいことを言われる。

せっかくなので、「信頼性とは何か」をみっちり勉強してみる。
あとあんましこまかい話ができないのは特定避けのつもり･･･が、結構これだけでも特定されてしまいそうな不安。

「信頼性（係数）」だけでぐぐってみても、わりかしおおざっぱにしか書いてないとこが多い。
まあおおざっぱでいいと思うんだけど。
本当なら「妥当性」こそが議論の対象なんだし。

統計で言うところの「信頼性」っていうのは、「この結果ってまぐれじゃないよね？」という念押しみたいなもん。
ちなみに「妥当性」ってのは、「これってちゃんと調べたいこと調べられてるよね？」っていうこと。
よく的当ての喩えで言われる。
ちゃんと的に当たってますよ、というのが妥当性。
当たったのは偶然じゃないですよ、というのが信頼性。

信頼性の念押しはおおまかに分けて２通り。

「（内的）一貫性」と「安定性」。

「一貫性」のほうは、課題の中でばらつきがないですよ、へんなもん混じり込んでないですよ、ということ。
的当てで言うなら、ダーツで的当てゲームの最中に、いきなり「わたしが今みてるのはどこでしょう」とか関係ない（けど答えだけ見てたら似てる）ようなゲームが混じったりしませんよ、ということ。
まあそれは極端な例としても、質問紙なんかで、みんなが偏った答えしがちになってないかを検討するやつ。
手法としては、課題をまっぷたつに分けて、その２つの等質性を確認する折半法とか。
課題のわけかたを何通りか考えて、それぞれの場合を考慮するCronbach's alphaとか。
ほかにもいっぱい。
私は折半法とCronbachだけで用が足りたのでめんどくさくなってそれ以上はあんまし確認してない。
計算方法とかウェブにのってるから検索してみてね。
んで「安定性」っていうのは、何回やっても似たような結果になりますよ、というもの。
的当ての喩えをだすまでもないか。
手法としては、再テスト法ってのと平行テスト法ってのがある。
再テスト法は、おなじテストを時間空けてもいっかいして、前のと後のとで相関をとる。
平行テスト法は、おなじじゃまずいだろ（記憶／学習の効果とかいろいろで）ってことで、よく似た別のテストをやってその二つの相関をとる。
ただ、「よく似た別のテスト」が、前のテストと「等質」であるようにしなきゃなんない。
課題をつくる苦しみが２倍。つーか「等質」をどうやって定義するか･･･という問題もクリアしなきゃなんない。

私はそもそも作った課題が短期記憶課題なので、「安定性」を想定しなかったのですよ。
だって、記憶課題が「何回やっても似た結果」ってなるわけないし。
記憶なんだから、２回目以降は長期記憶に前回の影響がなんらかのかたちで残ってるはずだし。
んでも短期記憶課題で、長期記憶からの影響をみるとなればそれはまた別の実験が必要だし。
だけど、レビュアのひとりが「安定性を確認すべきだ」と主張するので、再テスト法を試してみたのですよ
（一貫性は既にやってたから）
案の定、だいたいみんな成績があがるから、ものすごく高い相関係数なんて出ない。
んでも一応有意。
まいっかー、というのが私の感想。

んが、今回のコメントで、「信頼性係数は相関係数の２乗です」と言われ、２乗するとさらに係数が低いということに。
ところが、文献さらさら当たる程度では、「再テスト法の信頼性係数は２テスト間の相関係数」程度の言及しかねえー。
なんだそれ。どーゆーことだ。と思ってちょっとごつめの文献借りてきた。

Linn編・池田央ほか訳『教育測定学』上巻。
でけえ。おもい。
それはともかく、信頼性の章を読むと、
「信頼性係数は真値と観測値の相関の２乗」
っていうふうに書いてある。
ふむ。あれ？
真値というのは、本当に見たいデータのことね。
観測値っていうのは、実際にとれたデータのことね。
いや、本当に見たいデータだけとれれば文句もないんだけど、世の中そうもうまくいかなくて、どうしてもへんな誤差とかノイズとかいろいろ入っちゃう。
だから、

（観測値）＝（真値）＋（誤差）

ってなってる、と考えられてる。
当然、真値ってのはわからない。（わかったら苦労はしない）
真値わかんないけどわかりたいのはそこだから、なんとかして真値を推定しよう、というのが統計手法。
なので、単に出てきた相関係数を２乗したものは「真値と観測値の相関の２乗」とは言えない。

んでこっからは本のまるうつしってか自分用かみくだき。
テスト１が信頼性係数みたいテスト、テスト２が信頼性係数はかるための再テスト／平行テストとして、

古典的テスト理論では、

（テスト１の分散）＝（テスト２の分散）

なので、

（テスト１と２の相関）＝（（真値とテスト１の相関）の２乗）＝（真値の分散の２乗）÷（テスト１の分散の２乗）

このとき、
（テスト１と２の共分散）＝（真値の分散の２乗）
なので↑の定義は交換可能。

（テスト１と２の相関）＝（（真値とテスト１の相関）の２乗）
というところから、テストどうしの相関をもって信頼性係数としていたんですね。

しかし、この著者は、
本来なら「真値と観測値の相関」こそが信頼性係数であるはずだ、ということで、

（真値と観測値の相関）＝（（テスト１と２の相関）の平方根）

が信頼性係数の定義となるんではなかろうか？
と提案しています。

うはｗｗｗｗ
コメントと真逆ｗｗｗｗ

と思わずつぶやいてしまいますよそりゃあ。
（ちなみにt検定じゃなくて分散分析！って言ってたのとおなじひと）
え、これ試されてる？私試されてる？
背理的にちゃんと統計つかえる子か試験されてるのこれ？

･･･とりあえずこれを英語で書けるようにしなくちゃ･･･

がっつり Trackback() Comment(0)

この記事にコメントする

お名前
タイトル
メールアドレス
URL
カラー
絵文字
コメント
非公開	管理人のみ閲覧できます
パスワード
	* コメントの編集にはパスワードが必要です