読者です 読者をやめる 読者になる 読者になる

ジオマーリン

仕様を公開してアドバイスを受けながら geomerlin.com を構築していくスタイル。このシステムではデータサイエンスと人工知能技術により地政学リスクを算出しています。

自然言語処理@深層学習を少ない教師データで効果を出す提案(ベクトル化、スパースモデリング)

たくさんデータを集めることのほうが、プログラミングよりもよっぽど大変なニューラルネット

自然言語処理だと、教師データを作れそうで作れないからすごくフラストレーションがたまる。

 

ここで真剣に教師データ不足について考察してみる。

教師データ不足を分析すると二通りの不足の仕方がでてくる。

①大量に使えそうなデータは存在するが加工が容易ではない

②教師データが本当にない

 

まず解決方法をそれぞれ見当をつけてみる

①大量に使えそうなデータは存在するが加工が容易ではない→2段階で学習する

②教師データが本当にない→スパースモデリング

 

こう見当をつけた理由は以下の通り

①word2vecに加工しておけば、大量のコーパスデータを背後に準備できるから、訓練データで出てない単語でも推測できる。

 

自然言語処理は特にbagofwords形式だとスカスカになるからL1正則化で精度を上げられる。

 

調べてみたところChainerにはL1正則化が準備されている!!!

これで精度が上がったら報告しようと思う。