ジオマーリン

geomerlin.com に関することを中心に。難しいことをもっと難しく書くブログ。

自然言語処理@深層学習を少ない教師データで効果を出す提案(ベクトル化、スパースモデリング)

たくさんデータを集めることのほうが、プログラミングよりもよっぽど大変なニューラルネット

自然言語処理だと、教師データを作れそうで作れないからすごくフラストレーションがたまる。

 

ここで真剣に教師データ不足について考察してみる。

教師データ不足を分析すると二通りの不足の仕方がでてくる。

①大量に使えそうなデータは存在するが加工が容易ではない

②教師データが本当にない

 

まず解決方法をそれぞれ見当をつけてみる

①大量に使えそうなデータは存在するが加工が容易ではない→2段階で学習する

②教師データが本当にない→スパースモデリング

 

こう見当をつけた理由は以下の通り

①word2vecに加工しておけば、大量のコーパスデータを背後に準備できるから、訓練データで出てない単語でも推測できる。

 

自然言語処理は特にbagofwords形式だとスカスカになるからL1正則化で精度を上げられる。

 

調べてみたところChainerにはL1正則化が準備されている!!!

これで精度が上がったら報告しようと思う。