自然言語処理、task & corpus
機械学習を評価するにあたって、応用問題に落としてテストすることも重要です。 個人で参加できるような、お金がかからない自然言語処理のデータセットはないかと思って探してみました。
CoNLL Shared Task
http://ilps.science.uva.nl/~erikt/signll/conll/
PKDD、SPAM分類問題
http://www.ecmlpkdd2006.org/challenge.html
GINEA
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/
William Cohen's webpage
http://www.cs.cmu.edu/~wcohen/
Shared Taskは、通常、参加する旨をメールで送れば、Agreement formにサインした後、Corpusをダウンロードすることができます。 データさえあれば、研究所に属していなくても個人で研究しやすくなります。