忍者ブログ

めもめも ...〆(。_。)

認知心理学・認知神経科学とかいろいろなはなし。 あるいは科学と空想科学の狭間で微睡む。

2024/04    03≪ 1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  ≫05
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

ここんところ毎日さむくてしにそう。
さむくてやるきのでないときってみんなどうやって対処してるんだろう。
温もってやるきがばりばり出るお茶とかあればいいのにな。
こう寒いと紅茶もすぐ冷えるんだ。
やっぱティーコジーを用意すべきかな。
ミシン買って無駄に凝ったティーコジーとか作りたい。裁縫にがてだけど。
発想がむちゃくちゃインドア。


さむくてやるきがでないけどおべんきょうしまふ。
ただしくはメシマズ帝国で習ったことの復習なんだけど、そいやこっちにめもってなかった気がするので、めもりながらの復習。

今回復習するのは、Latent Semantic Analysisという言語学っぽい手法について。
略称LSA。
ざっくばらんに言うと言語の共起頻度しらべるやつ。
本当のこと言うと、RでLSAのためのツールとか作られてるから勉強がてらRでLSAできるコード書いてそれもめもにしとこうと思ったけどテキストマイニングのめんどくささに嫌気が差して放置。
本気でLSAやることになったら本腰いれてとりかかるかも。

まあとりあえずの復習ということで。



まずLSAについてのまとめ。
基本的な話&デモは
http://lsa.colorado.edu/
にあるので試してみたいひとはどぞー。

ちうかBoulderって地名だったのね。
University of Colorado Boulderというのが大学名なのね・・・
ずっと人名だと思っていたのはここだけのひみつ。

というわけであらましを箇条書き。
  • 作ったのはLandauer & Dumais
  • 論文は1997年のPsychological Review (104) 211-240があるけどPubMedにひっかからない
  • 因子分析みたいなかんじで行列つくって成分分解
  • 単語vs.単語、単語vs.passage(句?節?)、passage vs. passageの組み合わせで両者の関係を調べる。
  • 調べるのはassociation(連想価か?と思ったけどたぶん共起頻度だよね)や意味的類似性。
  • テキストデータベースから単語や句の使われるパターンを調べる。
  • ただし語順は考慮にいれない。
  • 因子分析みたいに次元を最適化する。
  • 個々の共起頻度はそれなりの数になる
  • 最小の共通次元で対象を定義するための情報を抜き出す。
  • 行列つくるときには、各セルの頻度はその単語(句)の重要性・情報の種類を表す関数によって重み付け。
  • 特異値分解(singular value decomposition)をする。行列の行をベクトルとしてfactor values(日本語訳がわからんかった)を算出。列も同様に。
  • 最小かつ十分な因子数になるように、最小2乗法でフィッティング
  • 場合によっては、同じ文中に出てこない単語のペアにも高い相関が見られる。間接的な関係性も見つけられるのがLSAのメリット。
  • 次元を最適化するために、外的な妥当性基準が必要になう場合もある。
  • デメリットとしてわりと値がノイジーなこと。なんらかの(統計的)処理が必要になる。
  • 類似性は各ペアのコサイン類似度で。
  • でも素にするテキストデータベースが何か、とか次元いくつか、とかで値が変わってくるからあくまで相対的な類似性。
  • ときどきへんなペアが類似度高いってなることもあるけどまあ気にスンナ。
あと、RにLSAを実装するときに見るべきサイト。
http://cran.at.r-project.org/web/packages/lsa/index.html

これはsnowballというツールやRWekaというツールが必要らしい。
snowballはこちらを→http://snowball.tartarus.org/texts/quickintro.html
RWeka はこちらを→http://cran.at.r-project.org/web/packages/RKEA/index.html
各自参照のこと。
んでまあこれらのツール入れるのに必要なツールとかあるからぽちぽちサイトみながらがんばるしかない。

テキストデータベースをつくるテキストマイニングについては
http://cran.at.r-project.org/web/views/NaturalLanguageProcessing.html
http://cran.at.r-project.org/web/packages/tm/index.html
を参照。
まあ実際自分でやってないからなんとも。

というわけでだいたいしかかいてないけどまあそれでいいや。
もっとちゃんと知りたいひとはUniversity of Colorado BoulderのサイトかLandauer & Dumais (1997)読んでたもれ。
言語学やらないけどLSAって何か把握するだけが目的のめもですので。


そしてさむい。ゆびがひえる。
温もってやるきのでるお茶とか(以下無限ループ)

この記事にコメントする
              
お名前
タイトル
メールアドレス
URL
カラー
絵文字 Vodafone絵文字 i-mode絵文字 Ezweb絵文字
コメント
非公開 管理人のみ閲覧できます
パスワード   
* コメントの編集にはパスワードが必要です
この記事にトラックバックする
トラックバックURL:
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
カテゴリ説明
もっさり:日々の雑感をもっさり。
がっつり:論文や研究関連をがっつり。
びっくり:科学ニュースでびっくり。
まったり:空想科学などでまったり。
ばっかり:デザイン系自己満足ばっかり。
ほっこり:お茶を嗜んでほっこり。
最新コメント
※SPAMが多いのでhttpを含むコメントと英語のみのコメントを禁止しました※
[01/20 NONAME]
[05/07 ぱるぱる]
[05/06 ぱるぱる]
[05/06 ぱるぱる]
[08/29 初見名無し]
最新トラックバック
プロフィール
HN:
az
性別:
非公開
自己紹介:
興味のあるトピックス
 分野は視覚認知。視知覚にがて。
 あと記憶全般。
 カテゴリ (semanticsか?) とかも。
 最近デコーディングが気になる。
 でも基本なんでもこい。
 好奇心は悪食。

好きな作家(敬称略)
 川上弘美
 小林秀雄
 津原泰水
 森茉莉
 レイ・ブラッドベリ
 イタロ・カルヴィーノ
 グレッグ・イーガン
 シオドア・スタージョン
バーコード
ブログ内検索
カウンター
フリーエリア
PR
<< Back  | HOME |   Next >>
Copyright ©  -- めもめも ...〆(。_。) --  All Rights Reserved
Designed by CriCri / Material by もずねこ
忍者ブログ  / Powered by [PR]