http://nensyu-labo.com/ 平成19年の国税庁による年収データを年齢別でグラフ 各年齢別の詳細データは以下の通りだそうです年齢____ 男性 女性 70歳以上 411 253 65〜69歳 398 215 60〜64歳 505 233 55〜59歳 638 263 50〜54歳 667 266 45〜49歳 662 278 40…

ICML2007 & 自然言語処理

一年ぐらい更新をさぼってました。 書かないとだめですね。。 注目していた論文の名前がわからなくなってしまったりします。自然言語で使えそう(?)なICML2007の論文をリストしてみます。 - 構造予測する分類器で、Decoding を軽くするような話On Learning Li…

NIPS2006 & 自然言語処理

NIPS 2006で、自然言語処理に使えそうな論文のリストです。Scalable Discriminative Learning for Natural Language Parsing and Translation http://books.nips.cc/papers/files/nips19/NIPS2006_0873.pdfTraining Conditional Random Fields for Maximum P…

GPU

GPUが段々、汎用チップになろうとしているんですが、こういうのは自然言語処理にも使えないのでしょうか? http://pc.watch.impress.co.jp/docs/2006/1109/kaigai316.htm

点字が面白い

点字だと、平仮名で、わかち書きするみたいです。 英語みたい。 自然言語処理もある意味、楽になりそうです。点字入門 http://www.tohoho-web.com/tenji.htm

質問応答

Analytical QA の課題の一つは、質問と答えの間にまったく共通する単語がないケースが多いことだと思われます。例えば、「過去五年に起こった重大な事件について知りたい」というQueryがあるばあい、事件とはなんなのか? 地震、津波、洪水、9/11やサリン事…

HLT, COLT, ICML, Coling-ACL, EMNLP

HLT, COLT, ICML, Coling-ACL, EMNLPで、機械学習の視点から見て大事そうだな、と思った論文について書きます。 自然言語処理の分野で使えそうな structure のある話にバイアスがかかっているので悪しからず。 他にも良い論文はいっぱいありました。======= …

Feature, Feature Space

昨日の例でもでてきましたが、Classifierは、結局、Featureとして与えられた部分だけしか見ずに分類をしています。 いくら賢い、理論が素晴らしい Support Vector Machine を使っても、与えられた Featureが身長と体重だけでは、男と女を区別するのは難しい…

分類問題

今回は Classifier (分類器)についての歴史です。 前回は、Model, Optimization, そして、Featureの話でした。 この三つを知らないと話がわからないので注意。 ふたたび、x を見て、y を予測したいとします。 例えば、x はパスポートの写真。 y は性別としま…

機械学習

しばらく、資料集の紹介だったので、ここらへんで専門に勉強しない人に向けた機械学習についての解説をすこしだけします。 主なタスクは、以下の様なものです。 (1) Supervised 訓練用にサンプルを用意して、機会に学習させた後、テスト用の別なサンプルでど…

Semi-supervised Learning

一部で有名になっています。 目的となる学習と、correlationがある別の学習を同時に行なうことで、データの構造を利用してsemi-supervised learning ができる、という論文です。Ando & Zhang http://www-cs-students.stanford.edu/~tzhang/papers/jmlr05_sem…

自然言語処理、task & corpus

機械学習を評価するにあたって、応用問題に落としてテストすることも重要です。 個人で参加できるような、お金がかからない自然言語処理のデータセットはないかと思って探してみました。 CoNLL Shared Task http://ilps.science.uva.nl/~erikt/signll/conll/…

最近のBayesian Methods

Clustering 系の Bayesian MethodsHLT の Tutorial が非常に面白かったので紹介します。http://bayes.hal3.name http://www.isi.edu/~hdaume/bayes/hlt-slides.pdfHLT 2004 の tutorial はここ。 https://ssli.ee.washington.edu/~bilmes/bilmes_hlt04_tutor…

On-line Learning Algorithm

online -> batch conversionをどうやるかについての論文。http://www.cs.huji.ac.il/~singer/papers/o2b_nips.pdf

Structured Output Prediction

structured output predictionで、重要そうな論文リストをあげます。Michael Collins の Voted Perceptron http://people.csail.mit.edu/mcollins/papers/tagperc.ps http://people.csail.mit.edu/mcollins/publications.htmlMax Margin Perceptron と、stru…

Nullさん

ほんとだ、Nullさんって苗字の人存在する…http://www.ancestry.com/search/SurnamePage.aspx?html=b&ln=Null&sourcecode=13304データべースのエントリーに、Null、って文字列があったら、びびってSQLのコードを読み直しそう。

NIPS tutorial

NIPSのTutorial この二つがすごいと思いました。 Spectral Methods for Dimensionality Reduction http://www.cis.upenn.edu/~lsaul/nips05_tutorial/PCAでデータ分布の構造を捜す話なんだけど、今はlinearどころか、いろんなmanifoldの構造が発見できるらし…

忙しいのにネットショッピング

せっかく買った Shuttle ST20G5 が初期不良っぽいので返すことした。 AMD64 x2 dual core が使いたいので他のマザーボードを探すことに。 Asus A8N-VM マザーボード + Aspire X-Qpack のケースで小さくて完璧(Micro ATXサイズ) これなら片手で持ち運べるPCが…

コンピューターにできること、できないこと

ボードゲームで、初手から最終手までルール上指せるすべての手を推計し、合計した数字:チェス、10の120乗。 将棋、10の220乗。 囲碁、10の360乗。宇宙に存在する原子の数は10の80乗に満たないと言われています。 こういう数は、いかにコ…

論文紹介 (自然言語)

http://www.seas.upenn.edu/~ryantm/papers/MS-CIS-05-11.pdfJoint Conference on Human Language Technologies and Empirical Methods in Natural Language Processing, 2005 で、Best Student Paper Awardを取った論文の長いバージョンです。 思うことは。…

http://chasen.org/~taku/publications/nl161-slide.pptを見て思ったこと。 CRFで形態素の分析をするときのpriorと、テキスト分類をするときに有効だと聞いていたpriorがちがうのに驚きました。 考えてみれば別に全然おかしくないですが。

てすと