めもめも ...〆(。_。)

認知心理学・認知神経科学とかいろいろなはなし。あるいは科学と空想科学の狭間で微睡む。

2025/10 09≪ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ≫11

2025/10/22 (Wed)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2009/07/16 (Thu)

昨日はうちの研究室でやってる論文輪読研究会でわたしの番でした。
これで前期は最後だし最近は実験心理学ものばっか読んでたので、ちょっと神経科学なやつ読んじゃえーっとデコーディングの論文持って行きました。
案の定学部生にはぽかーんとされたよ！！！

せっかく読んだんだから、こっちでレジュメでもりさいくるしたいと思います。
文体がいつものぐだぐだ体じゃなくてである体だけどきにしなーい。
気力があったら書き直してもいい。
まーいつもはそんなにぐだぐだじゃないよっていう見せかけ。
ちなみに文体まじめなレジュメなのに解説はぐだぐだ口調でした。
まじめめどい。

読んだ論文は
Decoding of emotional information in voice-sensitive cortices.
Current Biology 2009, 19, 1028-1033
Ethofer, T., Van De Ville, D., Scherer, K. Vuilleumier, P.
でした。

Summary

イメージング研究で、聴覚野にはひとの声に選択的活動を示す部位があることが知られている。そういった部位は、ニュートラルな口調（プロソディ）よりも、感情的なプロソディの声により強い活動を示す。しかし従来の研究では感情の有無についての脳活動の差を見出すことはできても、感情のカテゴリの違いまではわからなかった。本研究では、５種類の感情的プロソディ（怒り・悲しみ・ニュートラル・安心・喜び）で話される無意味語に対する聴覚野の活動をfMRIで測定し、多変量パターン解析を用いて感情カテゴリを分類した。その結果、脳活動からどの感情カテゴリの声を聞いているのか予測することに成功した。一対比較ではどの感情カテゴリも他のカテゴリと区別できたし、話者が変わっても区別できた。本研究は感情情報の脳活動パターンデコーディングに成功した初の研究である。

Results and Discussion

ヒト聴覚野（AC）で声に選択的活動を示す領域[1-3]の脳活動から、プロソディの感情情報のデコーディングを試みた。方法としては、support vector machine（SVM）に基づくfMRIの多変量パターン解析（MVPA）を用い、感情的な声情報を表現していると考えられる部位の反応の空間的分布を検出した。先行研究では、MVPAを用いて話している内容や話者を区別することに成功している[11]が、感情情報については未解明である。

標準的なfMRI研究では、superior temporal gyrus (STG) の中部がもっとも感情的プロソディに選択的活動を示すと言われている[4-8]。しかし、どの感情カテゴリにおいても一様に活動の増加を示すため、感情カテゴリ間の違いがわからなかった。そのため、ACは声に感情があるかどうかのみを反映しており、感情カテゴリは後の段階で（前頭葉などで）処理されると考えられた[13,14]。先行研究の方法では大脳の情報表現形式に対応し切れなかったと考えられる[9]。

そこで、声の感情情報がモジュールとして分散表現されているかどうか調べることにした。実験参加者は５つの感情カテゴリで話される無意味語を聞き、声の主の性別を判断する課題をevent-related fMRIで行った。性別判断は94%±1%ほどの正答率であり、課題はきちんと遂行されていることが確認された。

感情に選択的活動を示す領域と、声に選択的活動を示す領域は重複するところがあるという報告[15]に基づき、AC（STGとHeschl’s gyrus）のボクセルから声に選択的活動を示すものを”voice localizer” fMRI[1]によって選び出した（Fig. S1参照）。MVPAでデコーディングに最適なボクセル数を算出するとばらつきがでた（25~1800）。

結果として、右側でも左側でも５つの感情カテゴリの弁別ができた。ボクセル数が多いほどパフォーマンスは向上するが、400ほどで平らになった（Fig. 1Aと1Bの長い点線参照）。デコーディングパフォーマンスは両側で1000ボクセルのとき（28.6%±1.4%）と600ボクセルのとき（30.3%±1.2%）が最適だった。両側でのデコーディング（Fig. 1Cの長い点線参照）は片側よりも有意にパフォーマンスが高かった（p < .01）。これは、片側STG損傷では声の感情を読み取る機能はあまり低下しないという知見と一致する[16]。
このデコーディングが単に声への反応にではなく、声の感情情報への反応に基づくことを示すため、両側ACでもっとも声に選択的でないボクセルともっとも声に選択的なボクセルを比較する類似性分析を行った。ボクセルの数に関わらず、声に選択的でないボクセルを使用した場合のパフォーマンスは一貫して低かった（p < .001）。声に選択的でないボクセルは両側ですべてを足しこんでようやく声に選択的なボクセルのパフォーマンスに近づく程度であり（Fig. S2参照）、声選択的なボクセルが感情デコーディングに適していることが示唆された。
これまでのMVPAを用いた研究では、デコーディングは隣接するボクセルが異なる反応を示すような局所的情報表現に基づいていると考えられたため、空間平滑化カーネルをまったく用いない[17-21]か、ごく小さい範囲での空間平滑化カーネルを用いるか[22]のどちらかであった。今回は、より大きな単位（subregionのようなもの）での情報表現の可能性を探るため、fMRIデータの平滑化を行った。より大きな単位の情報表現をデコーディングする場合、平滑化を行うと、S/N比が改善されパフォーマンスが向上すると予測される。平滑化後のデコーディングは1%~1.5%パフォーマンスが上昇した（Fig.1A-1Cの実線参照）ため、プロソディから読み取れる感情情報は比較的大きい単位で表現されているものだと考えられる。平滑化の効果は右側でも左側でも同様に得られ（右1200ボクセルで30.1±1.4%、左1600ボクセルで30.9±1.1%）であり、両側1400ボクセルは31.8±1.4%で有意にパフォーマンスが高かった（p < .005）。
重要なのは、ボクセル数が200を越えるとチャンスレベル（20%）以上のパフォーマンスを示したことである（すべてp < .01; Fig. 2D-2F参照）。感情カテゴリはそれぞれ特有の空間的活動パターンを持つといえる。さらに、このデコーディングが話者に依存するかどうかを調べた。9人の話者で訓練した分類を10人目に適用したところ、パフォーマンスはそれほど低下しなかった（30.3±1.4%）。このデコーディングは話者に依存しないといえる。
逆に、声選択的なボクセルの活動を平均したものでデコーディングすると、パフォーマンスはチャンスレベル程度（18.5%～22.9%）であった。ボクセル数を増やしてみてもパフォーマンスは増加しなかった（Fig.1A-1Cの短い点線参照）
そして、各感情カテゴリの空間的活動パターンを特定するために、SVMを一対比較でコーディングに適用した。一対比較には両側ACの1400ボクセルを用いた。結果はどの対もチャンスレベル（50％）以上のパフォーマンスを示した（Table 1参照）。どの感情カテゴリも特有の空間的活動パターンを有するものだと考えられる。また、デコーディングパフォーマンスは400ボクセル程度で増加が平坦になるので、カテゴリごとにもっとも情報量の多い400ボクセルをマッピングした（Fig. 2参照）。どのカテゴリにおいても、情報量の

多いボクセルは広く分散していることが見て取れる。また、平均して約50%のボクセルがカテゴリ間で重複しており、すべてのカテゴリでこのマップに含まれるボクセルは25%ほどあった。カテゴリ間で共通するボクセルはほとんどSTGの中央部（声の感情を処理していると考えられている[4-8]）にあった。重要なことだが、arousalが高い（怒りや喜び）か低い（悲しみや安心）か（各カテゴリのvalenceとarousalはTable 2参照）の重複は他のカテゴリ間の重複より多かった（例えば、怒りと喜びで55.5%が重複し、悲しみと安心で63.3%が重複した。arousalが異なるものでの重複は46.5-47.5％、各カテゴリとニュートラルとの重複は44.5-52.5%であった）。一対比較でも、arousalが似ているものはパフォーマンスが下がったが、valenceが似ているもの（怒りと悲しみ、喜びと安心）は弁別パフォーマンスが高かった（Table 1参照）。これは、感情カテゴリを規定するのに重要なのはarousalだという心理学[23]や神経科学[25]での説と一致する。

また、声による感情情報の音響上のパラメータはいくつか異なる点がある[25]ことは特記しておく。特に基本周波数（F0）は感情のarousalに関わるパラメータであり、怒りと喜びは他のカテゴリに比べ高いF0が特徴的だといわれている[26]。話者のF0の違いがデコーディングの弁別性に相関するという先行研究の結果もあり[11]、F0は空間的活動パターンに反映されるような声の特徴を含んでいるのかもしれない。ただし、F0が類似している怒りと喜びもデコーディングできたことから、本研究の結果はF0だけでは説明できない。最近の研究でもF0は感情カテゴリを示すひとつの重要なパラメータであるが、音色（声色？）などのほかのパラメータも同様に重要であることが示されている[27]。さらに、STGの活動はF0よりも刺激の強度や長さを反映するという結果もある[8]。今回は感情が自然に受け止められるよう合成音声などの人工的な刺激は用いておらず、音響上のパラメータの効果についてほとんど調べられないが、今後さらに統制された刺激を用いた研究が期待される。

　問題はあるが、筆者らの知る限り本研究はACから感情情報のデコーディングに成功した最初のものである。先行研究では右ACは左ACよりも感情的なプロソディに対する活動が高いといわれていた[4-8]が、本研究では両側ACが感情情報に関与すると示唆された。これは、感情情報そのものに反応するというよりも、感情を認識するのに有用な聴覚情報に反応しているのかもしれない。情報量の多いボクセルの分布が広がっていることは、STGのさまざまなsubregionが超分節的情報を表現するという最近の音声情報表現モデル[13]と一致する。

感情的プロソディの理解は社会的機能にとって重要であり[28]、統合失調症（怒りや悲しみの欠如）[29]や双極性感情障害（恐怖や驚きの欠如）[30]やうつ病（驚きの欠如）[31]などの精神疾患で損なわれるものである。本研究に端を発する研究の展望として、感情理解の障害はACの段階で感情情報が読み出せなくなっているのか、前頭葉などで感情情報の理解[32,33]が阻害されているのかを調べることができるだろう。

また、本研究からさらに他モダリティにおける感情（視覚や嗅覚）や、モダリティを超えた感情（モダリティに依存しない部位で[34.35]）のデコーディングも可能になるだろう。視覚に関して言えば、顔や身体で表現される感情情報は、顔選択性のあるネットワーク[36]や身体選択敵領域[37]、紡錘回[38]や線条体外[39]などの小さい範囲での選択性が確認されている部位での研究が期待される。

Experimental Procedures

Subjects, Stimulus Material, and Experimental Design

22人右利きの健常成人が本実験に参加した（うち女性13人、年齢26.3±7.7歳）。

10人の俳優が“Ne kalibam sout molem”という無意味語を５つの感情カテゴリ（怒り・悲しみ・ニュートラル・安心・喜び）で朗読した。音声は同じ機器の同じ音量で録音され24人の被験者（うち女性12人、年齢28.5±4.5歳）に評価され、70%以上の被験者に正しく感情カテゴリが認識されることを確認した。また、14人の被験者（うち女性7人、年齢28.6±4.6歳）にvalenceとarousalを評定させた。また、刺激はすべてPraat software (http://www.prat.org[40]) でIとF0の平均を算出された。Table 2にカテゴリごとの刺激特性を示す。

刺激は順序を擬似ランダマイズされて各2回、スキャンにあわせて850msに揃えて提示された。試行間間隔は6.8-10.2秒であった。被験者は音声の性別判断をできるだけ早く行うよう求められた。

被験者ごとにvoice localizer (http://vnl.psy.gla.ac.uk/ [1]) が課され、音声を聞く32ブロックと音の無い16ブロック各8秒が実施された。音声ブロックの構成は、ヒトの声（スピーチ、ため息、笑い声：HV）が16ブロック、動物の音（鳴き声など）が8ブロック、環境音（扉の開閉音、電話の呼び出し、車の音など）が16ブロックであった。

Image Acquisition

Simensの3T scannerで構造画像はT1 TR = 1000ms, TE = 2.32, TI = 900ms, voxel size 0.9mm立方、機能画像は30 slices, thickness 4mm+1mm gap, TR = 1.7s, TE = 30ms, voxel size 3×3×5mm³で撮像した。本実験では509枚、localizerでは242枚撮像した。画像の歪みを修正して36slices, thickness 3mm+1mm gap, TR = 400ms, TE[1] = 5.19ms, TE[2] =7.65ms, voxel size 334mm³ のfield mapを取得した。

Conventional fMRI Analysis

画像はSPM5で分析された。分析前にrealignment, unwarping[41], slice time correction, MNI space[42] への標準化(resampled voxel sizeは3mm立方)が行われた。また、画像平滑化はガウシアンフィルタでなされた。統計分析は一般線形モデル[43]で行った。被験者の反応が見られなかった試行（全体の1%以下）は分析から除外した。

Pattern Classification

MVPAの特徴ベクトルとして、voice localizerで声選択性ボクセルを選定した（HVと他の音声とのコントラスト）。Heschl’s gyrusとSTGのボクセルはautomatic anatomic labeling toolbox[44]で領域を定義し、それぞれのt値に基づいてもっとも有意なものを特徴として選定した。特徴の値は従来法のfMRIのデータから推定されるsingle trial beta imagesより取得した。SPIDER toolbox (http://www.kyb.tuebingen.mpg.de/bs/people/spider) を用い、1試行を除いた全試行でカテゴリ分類するよう線形SVMを訓練した（leave-one-out procedure）。分類アルゴリズムが条件間の活動の差で偏らないように、選択されたボクセルの活動のベータ推定値平均を各カテゴリで差し引いた。一対比較は各カテゴリが他の４つのカテゴリと独立して分類できるか確かめるために行われた。各カテゴリでのもっとも情報量が多いボクセルを定義するために、SVMの絶対的重み付け（試行間・被験者間で平均したもの）をMNI spaceにマッピングした。また、他カテゴリとの弁別ができるためのSVMの最小重み付けも算出した。

…レジュメまんまはっつけるバカがいるか！
ここにいました。すんません。
図とか表とかさすがにこっちに持って来れないんでただの翻訳ですね。
「もっとぬるぬる論文紹介してくれるんじゃなかったの！？」って苦情がきたら考えます。

今回読んだ話の何がおもしろいって、物理的情報を直裁に解釈しての知覚情報（しろい背景にくろいドットが縦にならんでんのを見て「直線」と知覚するとか）じゃなくて、物理情報が少々異なるものであっても「これはおなじ」と判断される、カテゴリ分類のデコーディングだってことだと思う。
カテゴリ情報が知覚領域（今回は聴覚野）からデコーディングできるのはおもしろくね？
なんだか、すんげー前のほーの領域までレチノトピー（網膜との対応）があるって言うひとの話聞くときみたいな「えーまじでー」感がある。

個人的には、物理的情報との対応付けがはっきりしている視知覚よりも、そっからさらに「何か」が起こっているカテゴリカルな知覚のデコーディングのが興味あるわけですよ。
「何か」ってなんやねん。
この問いに取り組み続けてるのが心理学なわけですから。
ひょっとしたら、カテゴリ情報のデコーディングは、その「何か」に関するヒントをくれるかもしれませんよ？
そーうだったらいいのになー♪

あとはまあ、あれですね、イメージだの記憶だの、物理情報がそこにないやつのデコーディング。
「そんなんちゃんとチェックできるのか？」という問いは心理学の得意とするとこでもありますぜ。
むしろそーゆーことこそ心理学に聞いてくれ。
と、思ってるんだけど、なかなかそう思ってくれる非心理学屋さんはいないなあ。

がっつり Trackback() Comment(0)

この記事にコメントする

お名前
タイトル
メールアドレス
URL
カラー
絵文字
コメント
非公開	管理人のみ閲覧できます
パスワード
	* コメントの編集にはパスワードが必要です