めもめも ...〆(。_。)

認知心理学・認知神経科学とかいろいろなはなし。あるいは科学と空想科学の狭間で微睡む。

2025/11 10≪ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ≫12

2025/11/25 (Tue)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2012/02/11 (Sat)

ここんところ毎日さむくてしにそう。
さむくてやるきのでないときってみんなどうやって対処してるんだろう。
温もってやるきがばりばり出るお茶とかあればいいのにな。
こう寒いと紅茶もすぐ冷えるんだ。
やっぱティーコジーを用意すべきかな。
ミシン買って無駄に凝ったティーコジーとか作りたい。裁縫にがてだけど。
発想がむちゃくちゃインドア。

さむくてやるきがでないけどおべんきょうしまふ。
ただしくはメシマズ帝国で習ったことの復習なんだけど、そいやこっちにめもってなかった気がするので、めもりながらの復習。

今回復習するのは、Latent Semantic Analysisという言語学っぽい手法について。
略称LSA。
ざっくばらんに言うと言語の共起頻度しらべるやつ。
本当のこと言うと、RでLSAのためのツールとか作られてるから勉強がてらRでLSAできるコード書いてそれもめもにしとこうと思ったけどテキストマイニングのめんどくささに嫌気が差して放置。
本気でLSAやることになったら本腰いれてとりかかるかも。

まあとりあえずの復習ということで。

まずLSAについてのまとめ。
基本的な話＆デモは
http://lsa.colorado.edu/
にあるので試してみたいひとはどぞー。

ちうかBoulderって地名だったのね。
University of Colorado Boulderというのが大学名なのね・・・
ずっと人名だと思っていたのはここだけのひみつ。

というわけであらましを箇条書き。

作ったのはLandauer & Dumais
論文は1997年のPsychological Review　(104) 211-240があるけどPubMedにひっかからない
因子分析みたいなかんじで行列つくって成分分解
単語vs.単語、単語vs.passage（句？節？）、passage vs. passageの組み合わせで両者の関係を調べる。
調べるのはassociation（連想価か？と思ったけどたぶん共起頻度だよね）や意味的類似性。
テキストデータベースから単語や句の使われるパターンを調べる。
ただし語順は考慮にいれない。
因子分析みたいに次元を最適化する。
個々の共起頻度はそれなりの数になる
最小の共通次元で対象を定義するための情報を抜き出す。
行列つくるときには、各セルの頻度はその単語（句）の重要性・情報の種類を表す関数によって重み付け。
特異値分解（singular value decomposition)をする。行列の行をベクトルとしてfactor values（日本語訳がわからんかった）を算出。列も同様に。
最小かつ十分な因子数になるように、最小２乗法でフィッティング
場合によっては、同じ文中に出てこない単語のペアにも高い相関が見られる。間接的な関係性も見つけられるのがLSAのメリット。
次元を最適化するために、外的な妥当性基準が必要になう場合もある。
デメリットとしてわりと値がノイジーなこと。なんらかの（統計的）処理が必要になる。
類似性は各ペアのコサイン類似度で。
でも素にするテキストデータベースが何か、とか次元いくつか、とかで値が変わってくるからあくまで相対的な類似性。
ときどきへんなペアが類似度高いってなることもあるけどまあ気にスンナ。

あと、RにLSAを実装するときに見るべきサイト。
http://cran.at.r-project.org/web/packages/lsa/index.html

これはsnowballというツールやRWekaというツールが必要らしい。
snowballはこちらを→http://snowball.tartarus.org/texts/quickintro.html
RWeka はこちらを→http://cran.at.r-project.org/web/packages/RKEA/index.html
各自参照のこと。
んでまあこれらのツール入れるのに必要なツールとかあるからぽちぽちサイトみながらがんばるしかない。

テキストデータベースをつくるテキストマイニングについては
http://cran.at.r-project.org/web/views/NaturalLanguageProcessing.html
http://cran.at.r-project.org/web/packages/tm/index.html
を参照。
まあ実際自分でやってないからなんとも。

というわけでだいたいしかかいてないけどまあそれでいいや。
もっとちゃんと知りたいひとはUniversity of Colorado BoulderのサイトかLandauer & Dumais (1997)読んでたもれ。
言語学やらないけどLSAって何か把握するだけが目的のめもですので。

そしてさむい。ゆびがひえる。
温もってやるきのでるお茶とか（以下無限ループ）

がっつり Trackback() Comment(0)

この記事にコメントする

お名前
タイトル
メールアドレス
URL
カラー
絵文字
コメント
非公開	管理人のみ閲覧できます
パスワード
	* コメントの編集にはパスワードが必要です