自然言語処理、task & corpus

機械学習を評価するにあたって、応用問題に落としてテストすることも重要です。 個人で参加できるような、お金がかからない自然言語処理のデータセットはないかと思って探してみました。 

CoNLL Shared Task
http://ilps.science.uva.nl/~erikt/signll/conll/

TREC
http://trec.nist.gov/

PKDD、SPAM分類問題
http://www.ecmlpkdd2006.org/challenge.html

GINEA
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/

i2b2
http://www.i2b2.org/NLP/

William Cohen's webpage
http://www.cs.cmu.edu/~wcohen/

Shared Taskは、通常、参加する旨をメールで送れば、Agreement formにサインした後、Corpusをダウンロードすることができます。 データさえあれば、研究所に属していなくても個人で研究しやすくなります。