ジオマーリン

geomerlin.com に関することを中心に。難しいことをもっと難しく書くブログ。

2017-04-01から1ヶ月間の記事一覧

自然言語処理@深層学習を少ない教師データで効果を出す提案(ベクトル化、スパースモデリング)

たくさんデータを集めることのほうが、プログラミングよりもよっぽど大変なニューラルネット。 自然言語処理だと、教師データを作れそうで作れないからすごくフラストレーションがたまる。 ここで真剣に教師データ不足について考察してみる。 教師データ不足…

AI時代に重要なのは技術かリベラル・アーツか? 『記号と再帰』の表紙をみて思ったこと。

リベラル・アーツ教育はなぜ見捨てられないのだろう? 簡単な話、リベラル・アーツ教育の定義が「それさえしっかりやっていれば、何が大切か分かる教育」とすることもできるからなのかもしれない。 しかし、僕はなんだか計算哲学の本からは違う答えが匂って…

地政学リスク(GPR)を算出する知能システムを組んだ

要約:地政学リスクの教師データを作成し、ディープラーニングシステムを組んだ。タイトルを入力すると地政学リスクが算出されるシステムである。この効果は http://geomerlin.comで確認できる。 トランプvs北朝鮮の市場への影響が発端となって、「地政学…

動的サイト(ゲームライブラリ・D3)はハイブリッドアプリに不向きなのか?

D3.jsは可視化のためのjsライブラリだ。これを使ってモバイルアプリを出すことを考えているヒトもいるかもしれないので書いておこうと思う。なぜならD3.jsはハイブリッドアプリとして出すのには懸念事項があるからだ。 ・ハイブリッドアプリはグラフィック描…

日本語の自然言語処理技術の市場規模は266億円?

日本語のNLPの市場規模はどれくらいか気になった。 とりあえず最もシンプルな概算を行う。 日本語NLP規模 = 世界NLP市場規模 × ネット上使用言語の日本語率 = 76億ドル * 0.032 = 266億円 参考: 世界NLP市場規模 http://researchstation.jp/report/MA…

ニューラルネットワーク(Chainer)を使うようになって考えたこと

機械学習をシステムに組み込みたかったけど、SVMを作るのが今まで難しすぎたということが障害だった。 SVMを組むのが難しいのは次の二点 ①特徴量を設定するのが難しいこと ②教師データを集めるのが難しい そしてSVMではなくNN(ニューラルネット≒ディープラ…

MonacaのInappbrowserのエラーを遅延ロードで回避

モナカに大きなプロジェクト(長いjsファイルやエラー前提のシステム)を入れるとプラグインがうまく応答しないことがある。 これは憶測なので違ったら指摘して欲しいけど、プラグインが動かない原因はこれ ①仕様上devicereadyイベント発火ではじめてプラ…

geomerlin.comのシステム全体図を公開

ちょっとエンジニア向けのページになります。 仕様を公開する意図は ①アドバイスを受けたいこと ②ユーザーを巻き込んだ開発にすること です よくありそうな図ですね。 クローリング→自然言語処理→DB保存→ユーザーのリクエストに対してリスポンス 次に細かく…

python3からpython2呼び出しを最速で

人それぞれの事情でpython3からどうしてもpython2のプログラムを実行したい時、するべきことを簡単に書く やることは ①python2コード(p2.py)を書く →②python3コードの中でsubprocessを書く 以上 では具体的に以上の2つを実践する ①python2コード(p2.py)…