めもめも ...〆(。_。)
認知心理学・認知神経科学とかいろいろなはなし。 あるいは科学と空想科学の狭間で微睡む。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
とりあえずぼすの指示があるまでは実験準備をして待とうと思ってたんだが、リバイスってのは〆切があるわけで、それを思うとそわそわそわそわやりきれない。
んでもって、ぼすの指示を待つまでもない、統計学的なレビュアのコメントにいかに反駁するかを考えてたら、うっかりきれいな説明とこの業界の問題点があぶりだしになったので書く。
問題は何か、というと、タイトルにもあるように、
「t検定を繰り返すと第1種の過誤が高まる」という、心理学屋さんなら常識の話。
さて、「t検定を繰り返す」ってどういう状況かわかりますか?
そして、「なぜ」第1種の過誤の確率が増えるか、説明できますか?
そんなもんどーでもいーよ、ってひとと、そんなんわかりきってるわー、というひとはスルーしてください。
でもね、「業界の問題点」に通じるんですけど、「そんなんわかりきってるわー」のひとにも、もう一度確認してほしいと私は思ってます。
んでもって、ぼすの指示を待つまでもない、統計学的なレビュアのコメントにいかに反駁するかを考えてたら、うっかりきれいな説明とこの業界の問題点があぶりだしになったので書く。
問題は何か、というと、タイトルにもあるように、
「t検定を繰り返すと第1種の過誤が高まる」という、心理学屋さんなら常識の話。
さて、「t検定を繰り返す」ってどういう状況かわかりますか?
そして、「なぜ」第1種の過誤の確率が増えるか、説明できますか?
そんなもんどーでもいーよ、ってひとと、そんなんわかりきってるわー、というひとはスルーしてください。
でもね、「業界の問題点」に通じるんですけど、「そんなんわかりきってるわー」のひとにも、もう一度確認してほしいと私は思ってます。
とりあえず、今回の出発点から。
私は、いくつかの実験課題(簡便のために課題A、B、Cがあることにします)を、2つの実験参加者グループ(群Nと群Mということにします)にしてもらう、という実験設定で実験をしました。
注意点1:仮説は、群Nと群Mで、課題成績に差があること。
(課題間の差、たとえば課題Aの方が課題Bより難しい、とかは含めない)
つまり、2群間の差がみたい。
ので、私はt検定を採用しました。
(パラメトリックかノンパラか、って話はまた別、ということでお願いします)
ところが、レビュアのひとりは、
t検定を繰り返すと第1種の過誤が高まるから、分散分析にしなさい
とコメントしてきたのです。
一見これは正しそうに見えます。つーかこのまんまの語句で分散分析について習ったひとも多いでしょう。
しかし、思い出してほしいのです。
どういう状況が「繰り返し」であったか?
よく例えに使われるのは、1要因3水準の検定ですね。
その実験デザインでは、どの水準間に差があるのかを検定するために3回t検定をすると、危険率が足しあわされてしまう!
それは困った。それはいくない。だから分散分析をつかおう。
そういう話だったはずです。
でも、単に「t検定を繰り返してはいけない」のだったら、t検定が使えるのは人生に一度きりになってしまいます。
「なわけない」のは、直感的にわかりますよね?
てーか繰り返すことがだめならもう人類t検定使えないじゃん。
そうではなくて、
同じデータに、t検定を複数かけるのがよくない
のです。
同じ実験参加者だからといって、これまでそのひとが参加したすべての実験結果を要因に加えるのはばかげています。
これを、もっと厳密に説明するのはどうしたらいいのか?
それを悩んでいたのです。
んで、t検定と分散分析の違いについて説明してるのを探して、以下のQ&Aをみつけました。
http://soudan1.biglobe.ne.jp/qa960703.html
これをみて、ぴぴぴぴ~ん!と、まともな説明が思いついたのです。
Q&Aにもあるとおり、t検定も分散分析も、「平均値の差に関する検定」です。
帰無仮説は「各水準の母平均は等しい」、
対立仮説は「各水準の母平均は異なる」です。
んで、帰無仮説を棄却できたら対立仮説を採用しようじゃないか!というのが平均値の差に関する検定の枠組みですね。
上の私の例でいうと、(群Nの課題A成績平均値)=(群Mの課題A成績平均値)を棄却したくてt検定をしたわけです。
同様に、(群Nの課題B成績平均値)=(群Mの課題B成績平均値)、
(群Nの課題C成績平均値)=(群Mの課題C成績平均値)が帰無仮説です。
それぞれ、検定する仮説が違うのです。
違う仮説の2水準の平均の差を検定するなら、t検定で事足ります。
では、第1種の過誤がたしあわされるってどういうことになるのか、1要因3水準、水準X、Y、Zとして考えてみましょう。
帰無仮説は、(Xの平均値)=(Yの平均値)=(Zの平均値)、なわけですが、
厳密に書くと、
(Xの平均値)=(Yの平均値)
かつ
(Yの平均値)=(Zの平均値)
かつ
(Zの平均値)=(Xの平均値)
です。
これをいっぺんにやるのが分散分析ですが、t検定だと、
3つの組み合わせのうちひとつしか検定できない
のです。
つまり仮説は、
(Xの平均値)=(Yの平均値)
または
(Yの平均値)=(Zの平均値)
または
(Zの平均値)=(Xの平均値)
となります。
この仮説はだいぶ範囲がおっきいということは、集合論を思い出せばおわかりいただけると思います。
ということで、レビュアのコメントは、私が検定しようとしている仮説にそぐわないものだと考えられます。
さーて、これを英語でがんがって論理立てて書かなきゃいけないのか・・・うぅ。
もうおわかりかと思いますが、業界の問題点っていうのは、まともな出版社の論文誌エディタからレビュウを任されるようなひとが、上記のようなうっかりをやらかしてしまう、ということです。
まあ、うっかりなら、たいした問題ではないです。
ただ、
「t検定を繰り返すと第1種の過誤が高まる」と、呪文のように覚えているだけで、
「なぜそうなのか」「それはどういう状況なのか」がわかっていない、
ひいては「統計の仮説検定とはどういうことか」、
「今問題にしている実験デザインの仮説は統計上でどう表されるのか」に
無関心な研究者も、実は結構いたりするんじゃないかなー、
ということを懼れています。
(いや、今回のレビュアのひとはきっとうっかりだと思うよ!
前回の俺の説明がはっきりしなかったのがいくないよ!)
心理学では、上の呪文のせいで/おかげで、
分散分析がメインの統計ツールとして扱われています。
ですが、仮説とか、あと自分がみてるデータのモデルとか、
そういうことをちゃんと考えると、分散分析が本当に適切なツールなのかは、
その実験デザインによって違います。
あたりまえやけど。
この「あたりまえ」をおろそかにして、なんでもかんでも分散分析なら安心、と思わないようにしよう、という自戒をこめて、めもめも。
私は、いくつかの実験課題(簡便のために課題A、B、Cがあることにします)を、2つの実験参加者グループ(群Nと群Mということにします)にしてもらう、という実験設定で実験をしました。
注意点1:仮説は、群Nと群Mで、課題成績に差があること。
(課題間の差、たとえば課題Aの方が課題Bより難しい、とかは含めない)
つまり、2群間の差がみたい。
ので、私はt検定を採用しました。
(パラメトリックかノンパラか、って話はまた別、ということでお願いします)
ところが、レビュアのひとりは、
t検定を繰り返すと第1種の過誤が高まるから、分散分析にしなさい
とコメントしてきたのです。
一見これは正しそうに見えます。つーかこのまんまの語句で分散分析について習ったひとも多いでしょう。
しかし、思い出してほしいのです。
どういう状況が「繰り返し」であったか?
よく例えに使われるのは、1要因3水準の検定ですね。
その実験デザインでは、どの水準間に差があるのかを検定するために3回t検定をすると、危険率が足しあわされてしまう!
それは困った。それはいくない。だから分散分析をつかおう。
そういう話だったはずです。
でも、単に「t検定を繰り返してはいけない」のだったら、t検定が使えるのは人生に一度きりになってしまいます。
「なわけない」のは、直感的にわかりますよね?
てーか繰り返すことがだめならもう人類t検定使えないじゃん。
そうではなくて、
同じデータに、t検定を複数かけるのがよくない
のです。
同じ実験参加者だからといって、これまでそのひとが参加したすべての実験結果を要因に加えるのはばかげています。
これを、もっと厳密に説明するのはどうしたらいいのか?
それを悩んでいたのです。
んで、t検定と分散分析の違いについて説明してるのを探して、以下のQ&Aをみつけました。
http://soudan1.biglobe.ne.jp/qa960703.html
これをみて、ぴぴぴぴ~ん!と、まともな説明が思いついたのです。
Q&Aにもあるとおり、t検定も分散分析も、「平均値の差に関する検定」です。
帰無仮説は「各水準の母平均は等しい」、
対立仮説は「各水準の母平均は異なる」です。
んで、帰無仮説を棄却できたら対立仮説を採用しようじゃないか!というのが平均値の差に関する検定の枠組みですね。
上の私の例でいうと、(群Nの課題A成績平均値)=(群Mの課題A成績平均値)を棄却したくてt検定をしたわけです。
同様に、(群Nの課題B成績平均値)=(群Mの課題B成績平均値)、
(群Nの課題C成績平均値)=(群Mの課題C成績平均値)が帰無仮説です。
それぞれ、検定する仮説が違うのです。
違う仮説の2水準の平均の差を検定するなら、t検定で事足ります。
では、第1種の過誤がたしあわされるってどういうことになるのか、1要因3水準、水準X、Y、Zとして考えてみましょう。
帰無仮説は、(Xの平均値)=(Yの平均値)=(Zの平均値)、なわけですが、
厳密に書くと、
(Xの平均値)=(Yの平均値)
かつ
(Yの平均値)=(Zの平均値)
かつ
(Zの平均値)=(Xの平均値)
です。
これをいっぺんにやるのが分散分析ですが、t検定だと、
3つの組み合わせのうちひとつしか検定できない
のです。
つまり仮説は、
(Xの平均値)=(Yの平均値)
または
(Yの平均値)=(Zの平均値)
または
(Zの平均値)=(Xの平均値)
となります。
この仮説はだいぶ範囲がおっきいということは、集合論を思い出せばおわかりいただけると思います。
ということで、レビュアのコメントは、私が検定しようとしている仮説にそぐわないものだと考えられます。
さーて、これを英語でがんがって論理立てて書かなきゃいけないのか・・・うぅ。
もうおわかりかと思いますが、業界の問題点っていうのは、まともな出版社の論文誌エディタからレビュウを任されるようなひとが、上記のようなうっかりをやらかしてしまう、ということです。
まあ、うっかりなら、たいした問題ではないです。
ただ、
「t検定を繰り返すと第1種の過誤が高まる」と、呪文のように覚えているだけで、
「なぜそうなのか」「それはどういう状況なのか」がわかっていない、
ひいては「統計の仮説検定とはどういうことか」、
「今問題にしている実験デザインの仮説は統計上でどう表されるのか」に
無関心な研究者も、実は結構いたりするんじゃないかなー、
ということを懼れています。
(いや、今回のレビュアのひとはきっとうっかりだと思うよ!
前回の俺の説明がはっきりしなかったのがいくないよ!)
心理学では、上の呪文のせいで/おかげで、
分散分析がメインの統計ツールとして扱われています。
ですが、仮説とか、あと自分がみてるデータのモデルとか、
そういうことをちゃんと考えると、分散分析が本当に適切なツールなのかは、
その実験デザインによって違います。
あたりまえやけど。
この「あたりまえ」をおろそかにして、なんでもかんでも分散分析なら安心、と思わないようにしよう、という自戒をこめて、めもめも。
この記事にトラックバックする
トラックバックURL:
カレンダー
10 | 2024/11 | 12 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
カテゴリ説明
もっさり:日々の雑感をもっさり。
がっつり:論文や研究関連をがっつり。
びっくり:科学ニュースでびっくり。
まったり:空想科学などでまったり。
ばっかり:デザイン系自己満足ばっかり。
ほっこり:お茶を嗜んでほっこり。
がっつり:論文や研究関連をがっつり。
びっくり:科学ニュースでびっくり。
まったり:空想科学などでまったり。
ばっかり:デザイン系自己満足ばっかり。
ほっこり:お茶を嗜んでほっこり。
最新コメント
※SPAMが多いのでhttpを含むコメントと英語のみのコメントを禁止しました※
最新記事
(05/08)
(04/24)
(04/10)
(02/03)
(11/01)
最新トラックバック
プロフィール
HN:
az
性別:
非公開
自己紹介:
興味のあるトピックス
分野は視覚認知。視知覚にがて。
あと記憶全般。
カテゴリ (semanticsか?) とかも。
最近デコーディングが気になる。
でも基本なんでもこい。
好奇心は悪食。
好きな作家(敬称略)
川上弘美
小林秀雄
津原泰水
森茉莉
レイ・ブラッドベリ
イタロ・カルヴィーノ
グレッグ・イーガン
シオドア・スタージョン
分野は視覚認知。視知覚にがて。
あと記憶全般。
カテゴリ (semanticsか?) とかも。
最近デコーディングが気になる。
でも基本なんでもこい。
好奇心は悪食。
好きな作家(敬称略)
川上弘美
小林秀雄
津原泰水
森茉莉
レイ・ブラッドベリ
イタロ・カルヴィーノ
グレッグ・イーガン
シオドア・スタージョン
ブログ内検索
最古記事
(08/05)
(08/16)
(08/19)
(08/19)
(08/21)
カウンター
フリーエリア
PR
「第一種の過誤が、、、」って呪文はいたるところに書いてあったんですが、なぜそうなるのかはわからず困っていたところ、この記事を読んで疑問が解けました!
ありがとうございます。
統計って難しいですけど、ちゃんとつかえるようになればとってもべんりな道具ですよね。
勉強がんばってください。わたしもがんばります。
私は卒論をいまかいているのですが
統計を使うもので
統計初心者の私は色々本を読んでいたのですが
やはりt−検定と分散分析の使い方がいまいちわからずこのページを見ていました。
私の卒論ではA群に課題aをしてもらいます。
課題aは1〜6まであり、それぞれの反応時間を調べます。
課題aの1をしたあと、数分トレーニングをします。
その後課題aの2〜6をしてもらいます。
私は課題aの1と課題aの2の有意差、課題aの1と課題aの3の有意差、、、
課題aの1とを課題aの2〜6それぞれ比較したいのですが
この場合はt−検定でもよろしいのですか?
つたない文章ですみません。
もしよろしかったら答えていただけたら光栄です。
こんなマイナーなブログの、こんな昔の記事にようこそ。
統計むずかしいですよね。
初歩といわれるt−検定と分散分析の使い分けも、一概にこうと断言しきれないところがあります。
だださんのお話をうかがって、わたしの思ったこと・考えたことを述べさせてもらいますね。
だださんの実験では、「一つの課題aを何度も行う」という理解であっていますでしょうか。
そして、最初の試行またはブロックと比べ、2試行/ブロック、3試行/ブロック…でいかにパフォーマンスがあがるかを見たいということでしょうか。
でしたら、問題になってくるのは、それぞれの試行/ブロックのパフォーマンスがどれくらい独立しているか、だと思います。
要するに、2試行/ブロック目の結果は、3試行/ブロック目の結果に影響を与えるかどうか?あるいはその後の試行/ブロックは…が問題になるわけです。
完全に別の材料・別の課題ならば、それぞれの試行/ブロックのパフォーマンスに関連性はなさそうですが、同じ課題を繰り返すのならば、やはり練習効果が生じてくるのではないでしょうか。
それに、トレーニングを受けた直後はあんまり効果が現れなくて、N試行/ブロック目でいきなりがくん!とパフォーマンスが向上するという現象も起こる可能性があるかもしれません。
そういったことを考えると、検出力はおちてしまうかもしれませんが、多重比較を行ったほうがよいのではないかな、とわたしは思います。
ただ、これはあくまで課題の詳細も知らないわたしの雑感ですので、迷ったときは指導教員の方に質問するのが一番だと思います。
「先生は忙しそうだし、なんだか質問しづらいな…」と思っていらっしゃるかもしれませんが、卒論の指導は先生方のお仕事の中核の一つです。ちょっと勇気を出して先生に質問してみてください。ネット上よりも、もっと詳細で発展性のあるコメントがもらえると思いますよ。
質問しに行くことで、「この学生は意欲があるな、卒論もよいものになるだろう」と高い評価につながるかもしれませんし。
あともう一つ気になったのは、トレーニングの効果を見るのであれば、対照群も検討する必要があるのではないかということです。
「A群に課題aをしてもらいます」という表現をされているので、B群やC群に対照群を設定されているのだろうと思いますが、ワーキングメモリなどの認知機能に関するトレーニングの場合は、「何もしない」対照群だけでは比較対象として不十分な場合がありますので、その点ご留意ください。
では、すてきな心理学・卒論ライフを!
今はしんどいとは思いますが、後々それが糧になりますよ。
そうです!実験は繰り返し行うという形でしています。
このように丁寧に説明していただき誠に感謝しています。
とてもわかりやすく「あ〜なるほどな」と感じました!!!
長い長い卒論ライフ統計学と戦いながら楽しみたいとおもいます。
ありがとうございました。
実験がうまくいくこと、卒論が納得いく形で書き上げられること、そして何よりも心理学を存分に楽しめることをお祈りしております。
今研究をしていまして、いまいちt検定を使っていいものかどうか迷っています。
もっと学生時代にマジメにやっとけばよかったと・・・今更ながらに後悔してます。
前回質問されている(だだ)さんと似ているのですが、私のやっている課題では、
①②③④⑤⑥⑦⑧⑨⑩の順番である量を測定しているのですが、仮に①~⑦までは増えていくとして、
⑦の時点で測定した量はすでにMAXとなり⑧以降は測定しても変わらないとします。この①~⑩までの間に
何の刺激や負荷などもかけないとして、⑦を基準に①と⑦、②と⑦、③と⑦、・・・・、⑨と⑦、⑩と⑦と
それぞれに対応のあるt検定として有意差を求めてもいいんでしょうか?
宜しくお願いします(>_<)
>今研究をしていまして
>もっと学生時代にマジメにやっとけばよかったと・・・今更ながらに後悔してます。
とのことですので、あさんは大学を卒業された方とお見受けします。
その仮定(卒業しているので指導教員に相当する方がいらっしゃらない&卒業されたのだからそれなりに関連講義を履修なさった)のもと話をすすめますね。
「順番で」とおっしゃっているので、時系列に沿って同一の実験対象から繰り返しデータを測定されているものと推測します。
なので、学習心理学的なデータを想定することにします。
これはだださんの実験と同様、1回目~10回目の間でデータに関連があるかどうかが問題になってきます。
学習のような課題であれば、これまでの学習が次の学習に影響を及ぼすことは十分ありうると思います。
ですので、独立していないデータ間でt検定を繰り返すのは不適切だといえるでしょう。
(ボンフェローニなどで修正する場合は別ですが、それをt検定と称するのはへんですし)
では、何の検定を行うべきでしょうか。
これについては、あさんが行っておられる研究、得られたデータの性質(等分散かとか正規性があるかとか)によるとしか言えません。
一般的な認知心理学の分野では、データはそれなりに等分散とみなして分散分析を行うことも多いですが、もちろん等分散であることを検定したほうが理想的でしょう。
分散分析を行うような前提を満たせない場合は、フリードマン検定やウェルチの検定など別の方法を用いた方がよいと思います。
そもそもあさんの実験では水準が10あることですし、分散分析というよりも多重比較の問題ですね。
多重比較に関しても同様に、データの性質によってどのような分析を行うべきかが変わってくるので一概にこうとはいえません。
ただ、時系列の条件間で差を検定することが、あさんの研究目的に沿った分析なのかはわかりません。
データがプラトーに達しているようだ、とのことで、7回目と他の時系列との差を見たいとのことでしたが、もし「プラトーに達している=学習が成立している」ということを確認したいのでしたら、時系列間で差を見るよりも、プラトーとみなす閾値をもうけて(比較心理学でよく聞くのは8割とかそれより上ですね)、その閾値と有意な差があるかを検定すべきではないでしょうか。
あるいは、学習にみられるようなシグモイド曲線とのフィッティングをみるべきではないでしょうか。
やはりここは基本にたちかえって、「何を調べたかったのか」「仮説は何だったのか」を振り返ってみるべきだと思います。
そして、その仮説下でデータはどうあるべきなのかを考えてみましょう。
そうすれば、おのずからとるべき検定方法の在り方が見えてくると思いますよ。