めもめも ...〆(。_。)
認知心理学・認知神経科学とかいろいろなはなし。 あるいは科学と空想科学の狭間で微睡む。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
今日も統計の本とにらめっこ。
こないだひとつのコメントに反論する論拠を手に入れたものの、もいっこ難関がある。
信頼性係数に関して、だ。
私が使った課題は新しくつくったものなので、その妥当性と信頼性が問われる。
それだけなら、まあ「ふつーのはなし」なんだが。
「信頼性」の示し方に関して、やたらめったらこまかいことを言われる。
せっかくなので、「信頼性とは何か」をみっちり勉強してみる。
あとあんましこまかい話ができないのは特定避けのつもり・・・が、結構これだけでも特定されてしまいそうな不安。
こないだひとつのコメントに反論する論拠を手に入れたものの、もいっこ難関がある。
信頼性係数に関して、だ。
私が使った課題は新しくつくったものなので、その妥当性と信頼性が問われる。
それだけなら、まあ「ふつーのはなし」なんだが。
「信頼性」の示し方に関して、やたらめったらこまかいことを言われる。
せっかくなので、「信頼性とは何か」をみっちり勉強してみる。
あとあんましこまかい話ができないのは特定避けのつもり・・・が、結構これだけでも特定されてしまいそうな不安。
「信頼性(係数)」だけでぐぐってみても、わりかしおおざっぱにしか書いてないとこが多い。
まあおおざっぱでいいと思うんだけど。
本当なら「妥当性」こそが議論の対象なんだし。
統計で言うところの「信頼性」っていうのは、「この結果ってまぐれじゃないよね?」という念押しみたいなもん。
ちなみに「妥当性」ってのは、「これってちゃんと調べたいこと調べられてるよね?」っていうこと。
よく的当ての喩えで言われる。
ちゃんと的に当たってますよ、というのが妥当性。
当たったのは偶然じゃないですよ、というのが信頼性。
信頼性の念押しはおおまかに分けて2通り。
「(内的)一貫性」と「安定性」。
「一貫性」のほうは、課題の中でばらつきがないですよ、へんなもん混じり込んでないですよ、ということ。
的当てで言うなら、ダーツで的当てゲームの最中に、いきなり「わたしが今みてるのはどこでしょう」とか関係ない(けど答えだけ見てたら似てる)ようなゲームが混じったりしませんよ、ということ。
まあそれは極端な例としても、質問紙なんかで、みんなが偏った答えしがちになってないかを検討するやつ。
手法としては、課題をまっぷたつに分けて、その2つの等質性を確認する折半法とか。
課題のわけかたを何通りか考えて、それぞれの場合を考慮するCronbach's alphaとか。
ほかにもいっぱい。
私は折半法とCronbachだけで用が足りたのでめんどくさくなってそれ以上はあんまし確認してない。
計算方法とかウェブにのってるから検索してみてね。
んで「安定性」っていうのは、何回やっても似たような結果になりますよ、というもの。
的当ての喩えをだすまでもないか。
手法としては、再テスト法ってのと平行テスト法ってのがある。
再テスト法は、おなじテストを時間空けてもいっかいして、前のと後のとで相関をとる。
平行テスト法は、おなじじゃまずいだろ(記憶/学習の効果とかいろいろで)ってことで、よく似た別のテストをやってその二つの相関をとる。
ただ、「よく似た別のテスト」が、前のテストと「等質」であるようにしなきゃなんない。
課題をつくる苦しみが2倍。つーか「等質」をどうやって定義するか・・・という問題もクリアしなきゃなんない。
私はそもそも作った課題が短期記憶課題なので、「安定性」を想定しなかったのですよ。
だって、記憶課題が「何回やっても似た結果」ってなるわけないし。
記憶なんだから、2回目以降は長期記憶に前回の影響がなんらかのかたちで残ってるはずだし。
んでも短期記憶課題で、長期記憶からの影響をみるとなればそれはまた別の実験が必要だし。
だけど、レビュアのひとりが「安定性を確認すべきだ」と主張するので、再テスト法を試してみたのですよ
(一貫性は既にやってたから)
案の定、だいたいみんな成績があがるから、ものすごく高い相関係数なんて出ない。
んでも一応有意。
まいっかー、というのが私の感想。
んが、今回のコメントで、「信頼性係数は相関係数の2乗です」と言われ、2乗するとさらに係数が低いということに。
ところが、文献さらさら当たる程度では、「再テスト法の信頼性係数は2テスト間の相関係数」程度の言及しかねえー。
なんだそれ。どーゆーことだ。と思ってちょっとごつめの文献借りてきた。
Linn編・池田央ほか訳『教育測定学』上巻。
でけえ。おもい。
それはともかく、信頼性の章を読むと、
「信頼性係数は真値と観測値の相関の2乗」
っていうふうに書いてある。
ふむ。あれ?
真値というのは、本当に見たいデータのことね。
観測値っていうのは、実際にとれたデータのことね。
いや、本当に見たいデータだけとれれば文句もないんだけど、世の中そうもうまくいかなくて、どうしてもへんな誤差とかノイズとかいろいろ入っちゃう。
だから、
(観測値)=(真値)+(誤差)
ってなってる、と考えられてる。
当然、真値ってのはわからない。(わかったら苦労はしない)
真値わかんないけどわかりたいのはそこだから、なんとかして真値を推定しよう、というのが統計手法。
なので、単に出てきた相関係数を2乗したものは「真値と観測値の相関の2乗」とは言えない。
んでこっからは本のまるうつしってか自分用かみくだき。
テスト1が信頼性係数みたいテスト、テスト2が信頼性係数はかるための再テスト/平行テストとして、
古典的テスト理論では、
(テスト1の分散)=(テスト2の分散)
なので、
(テスト1と2の相関)=((真値とテスト1の相関)の2乗)=(真値の分散の2乗)÷(テスト1の分散の2乗)
このとき、
(テスト1と2の共分散)=(真値の分散の2乗)
なので↑の定義は交換可能。
(テスト1と2の相関)=((真値とテスト1の相関)の2乗)
というところから、テストどうしの相関をもって信頼性係数としていたんですね。
しかし、この著者は、
本来なら「真値と観測値の相関」こそが信頼性係数であるはずだ、ということで、
(真値と観測値の相関)=((テスト1と2の相関)の平方根)
が信頼性係数の定義となるんではなかろうか?
と提案しています。
うはwwww
コメントと真逆wwww
と思わずつぶやいてしまいますよそりゃあ。
(ちなみにt検定じゃなくて分散分析!って言ってたのとおなじひと)
え、これ試されてる?私試されてる?
背理的にちゃんと統計つかえる子か試験されてるのこれ?
・・・とりあえずこれを英語で書けるようにしなくちゃ・・・
まあおおざっぱでいいと思うんだけど。
本当なら「妥当性」こそが議論の対象なんだし。
統計で言うところの「信頼性」っていうのは、「この結果ってまぐれじゃないよね?」という念押しみたいなもん。
ちなみに「妥当性」ってのは、「これってちゃんと調べたいこと調べられてるよね?」っていうこと。
よく的当ての喩えで言われる。
ちゃんと的に当たってますよ、というのが妥当性。
当たったのは偶然じゃないですよ、というのが信頼性。
信頼性の念押しはおおまかに分けて2通り。
「(内的)一貫性」と「安定性」。
「一貫性」のほうは、課題の中でばらつきがないですよ、へんなもん混じり込んでないですよ、ということ。
的当てで言うなら、ダーツで的当てゲームの最中に、いきなり「わたしが今みてるのはどこでしょう」とか関係ない(けど答えだけ見てたら似てる)ようなゲームが混じったりしませんよ、ということ。
まあそれは極端な例としても、質問紙なんかで、みんなが偏った答えしがちになってないかを検討するやつ。
手法としては、課題をまっぷたつに分けて、その2つの等質性を確認する折半法とか。
課題のわけかたを何通りか考えて、それぞれの場合を考慮するCronbach's alphaとか。
ほかにもいっぱい。
私は折半法とCronbachだけで用が足りたのでめんどくさくなってそれ以上はあんまし確認してない。
計算方法とかウェブにのってるから検索してみてね。
んで「安定性」っていうのは、何回やっても似たような結果になりますよ、というもの。
的当ての喩えをだすまでもないか。
手法としては、再テスト法ってのと平行テスト法ってのがある。
再テスト法は、おなじテストを時間空けてもいっかいして、前のと後のとで相関をとる。
平行テスト法は、おなじじゃまずいだろ(記憶/学習の効果とかいろいろで)ってことで、よく似た別のテストをやってその二つの相関をとる。
ただ、「よく似た別のテスト」が、前のテストと「等質」であるようにしなきゃなんない。
課題をつくる苦しみが2倍。つーか「等質」をどうやって定義するか・・・という問題もクリアしなきゃなんない。
私はそもそも作った課題が短期記憶課題なので、「安定性」を想定しなかったのですよ。
だって、記憶課題が「何回やっても似た結果」ってなるわけないし。
記憶なんだから、2回目以降は長期記憶に前回の影響がなんらかのかたちで残ってるはずだし。
んでも短期記憶課題で、長期記憶からの影響をみるとなればそれはまた別の実験が必要だし。
だけど、レビュアのひとりが「安定性を確認すべきだ」と主張するので、再テスト法を試してみたのですよ
(一貫性は既にやってたから)
案の定、だいたいみんな成績があがるから、ものすごく高い相関係数なんて出ない。
んでも一応有意。
まいっかー、というのが私の感想。
んが、今回のコメントで、「信頼性係数は相関係数の2乗です」と言われ、2乗するとさらに係数が低いということに。
ところが、文献さらさら当たる程度では、「再テスト法の信頼性係数は2テスト間の相関係数」程度の言及しかねえー。
なんだそれ。どーゆーことだ。と思ってちょっとごつめの文献借りてきた。
Linn編・池田央ほか訳『教育測定学』上巻。
でけえ。おもい。
それはともかく、信頼性の章を読むと、
「信頼性係数は真値と観測値の相関の2乗」
っていうふうに書いてある。
ふむ。あれ?
真値というのは、本当に見たいデータのことね。
観測値っていうのは、実際にとれたデータのことね。
いや、本当に見たいデータだけとれれば文句もないんだけど、世の中そうもうまくいかなくて、どうしてもへんな誤差とかノイズとかいろいろ入っちゃう。
だから、
(観測値)=(真値)+(誤差)
ってなってる、と考えられてる。
当然、真値ってのはわからない。(わかったら苦労はしない)
真値わかんないけどわかりたいのはそこだから、なんとかして真値を推定しよう、というのが統計手法。
なので、単に出てきた相関係数を2乗したものは「真値と観測値の相関の2乗」とは言えない。
んでこっからは本のまるうつしってか自分用かみくだき。
テスト1が信頼性係数みたいテスト、テスト2が信頼性係数はかるための再テスト/平行テストとして、
古典的テスト理論では、
(テスト1の分散)=(テスト2の分散)
なので、
(テスト1と2の相関)=((真値とテスト1の相関)の2乗)=(真値の分散の2乗)÷(テスト1の分散の2乗)
このとき、
(テスト1と2の共分散)=(真値の分散の2乗)
なので↑の定義は交換可能。
(テスト1と2の相関)=((真値とテスト1の相関)の2乗)
というところから、テストどうしの相関をもって信頼性係数としていたんですね。
しかし、この著者は、
本来なら「真値と観測値の相関」こそが信頼性係数であるはずだ、ということで、
(真値と観測値の相関)=((テスト1と2の相関)の平方根)
が信頼性係数の定義となるんではなかろうか?
と提案しています。
うはwwww
コメントと真逆wwww
と思わずつぶやいてしまいますよそりゃあ。
(ちなみにt検定じゃなくて分散分析!って言ってたのとおなじひと)
え、これ試されてる?私試されてる?
背理的にちゃんと統計つかえる子か試験されてるのこれ?
・・・とりあえずこれを英語で書けるようにしなくちゃ・・・
この記事にコメントする
この記事にトラックバックする
トラックバックURL:
カレンダー
10 | 2024/11 | 12 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
カテゴリ説明
もっさり:日々の雑感をもっさり。
がっつり:論文や研究関連をがっつり。
びっくり:科学ニュースでびっくり。
まったり:空想科学などでまったり。
ばっかり:デザイン系自己満足ばっかり。
ほっこり:お茶を嗜んでほっこり。
がっつり:論文や研究関連をがっつり。
びっくり:科学ニュースでびっくり。
まったり:空想科学などでまったり。
ばっかり:デザイン系自己満足ばっかり。
ほっこり:お茶を嗜んでほっこり。
最新コメント
※SPAMが多いのでhttpを含むコメントと英語のみのコメントを禁止しました※
最新記事
(05/08)
(04/24)
(04/10)
(02/03)
(11/01)
最新トラックバック
プロフィール
HN:
az
性別:
非公開
自己紹介:
興味のあるトピックス
分野は視覚認知。視知覚にがて。
あと記憶全般。
カテゴリ (semanticsか?) とかも。
最近デコーディングが気になる。
でも基本なんでもこい。
好奇心は悪食。
好きな作家(敬称略)
川上弘美
小林秀雄
津原泰水
森茉莉
レイ・ブラッドベリ
イタロ・カルヴィーノ
グレッグ・イーガン
シオドア・スタージョン
分野は視覚認知。視知覚にがて。
あと記憶全般。
カテゴリ (semanticsか?) とかも。
最近デコーディングが気になる。
でも基本なんでもこい。
好奇心は悪食。
好きな作家(敬称略)
川上弘美
小林秀雄
津原泰水
森茉莉
レイ・ブラッドベリ
イタロ・カルヴィーノ
グレッグ・イーガン
シオドア・スタージョン
ブログ内検索
最古記事
(08/05)
(08/16)
(08/19)
(08/19)
(08/21)
カウンター
フリーエリア
PR