読者です 読者をやめる 読者になる 読者になる

思想をpythonで計算する

仕様を公開してアドバイスを受けながら geomerlin.com を構築していくスタイル。このシステムではデータサイエンスと人工知能技術により地政学リスクを算出しています。

自然言語処理@深層学習を少ない教師データで効果を出す提案(ベクトル化、スパースモデリング)

たくさんデータを集めることのほうが、プログラミングよりもよっぽど大変なニューラルネット。 自然言語処理だと、教師データを作れそうで作れないからすごくフラストレーションがたまる。 ここで真剣に教師データ不足について考察してみる。 教師データ不足…

AI時代に重要なのは技術かリベラル・アーツか? 『記号と再帰』の表紙をみて思ったこと。

リベラル・アーツ教育はなぜ見捨てられないのだろう? 簡単な話、リベラル・アーツ教育の定義が「それさえしっかりやっていれば、何が大切か分かる教育」とすることもできるからなのかもしれない。 しかし、僕はなんだか計算哲学の本からは違う答えが匂って…

地政学リスク(GPR)を算出する知能システムを組んだ

要約:地政学リスクの教師データを作成し、ディープラーニングシステムを組んだ。タイトルを入力すると地政学リスクが算出されるシステムである。 トランプvs北朝鮮の市場への影響が発端となって、「地政学リスク」という単語がまた注目されている。 どの…

動的サイト(ゲームライブラリ・D3)はハイブリッドアプリに不向きなのか?

D3.jsは可視化のためのjsライブラリだ。これを使ってモバイルアプリを出すことを考えているヒトもいるかもしれないので書いておこうと思う。なぜならD3.jsはハイブリッドアプリとして出すのには懸念事項があるからだ。 ・ハイブリッドアプリはグラフィック描…

日本語の自然言語処理技術の市場規模は266億円?

日本語のNLPの市場規模はどれくらいか気になった。 とりあえず最もシンプルな概算を行う。 日本語NLP規模 = 世界NLP市場規模 × ネット上使用言語の日本語率 = 76億ドル * 0.032 = 266億円 参考: 世界NLP市場規模 http://researchstation.jp/report/MA…

ニューラルネットワーク(Chainer)を使うようになって考えたこと

機械学習をシステムに組み込みたかったけど、SVMを作るのが今まで難しすぎたということが障害だった。 SVMを組むのが難しいのは次の二点 ①特徴量を設定するのが難しいこと ②教師データを集めるのが難しい そしてSVMではなくNN(ニューラルネット≒ディープラ…

MonacaのInappbrowserのエラーを遅延ロードで回避

モナカに大きなプロジェクト(長いjsファイルやエラー前提のシステム)を入れるとプラグインがうまく応答しないことがある。 これは憶測なので違ったら指摘して欲しいけど、プラグインが動かない原因はこれ ①仕様上devicereadyイベント発火ではじめてプラ…

geomerlin.comのシステム全体図を公開

ちょっとエンジニア向けのページになります。 仕様を公開する意図は ①アドバイスを受けたいこと ②ユーザーを巻き込んだ開発にすること です よくありそうな図ですね。 クローリング→自然言語処理→DB保存→ユーザーのリクエストに対してリスポンス 次に細かく…

ブログのタイトルを変更して、やりたいことをはっきりさせた

ブログのタイトルを「地政学リスクを算出する」から「思想をpythonで計算する」に変えた。 理由は本気でとあるコンセプトのウェブサイトを構築したいからである。 コンセプトは「ユーザーの思想を大切にするニュースサイト」 グローバルニュース専用のニュー…

python3からpython2呼び出しを最速で

人それぞれの事情でpython3からどうしてもpython2のプログラムを実行したい時、するべきことを簡単に書く やることは ①python2コード(p2.py)を書く →②python3コードの中でsubprocessを書く 以上 では具体的に以上の2つを実践する ①python2コード(p2.py)…

chainerで文書分類(ニュースをカテゴリ分け) 訓練後を中心

chainerはディープラーニングもできるNNライブラリ ディープラーニングということは入力と出力のサンプル(教師データ)を用意すれば分類問題は絶対自動化できる。 ただ、入力と出力の型が違うとコードも違ってくるから、「でぃーぷらーにんぐをやれ!」と一…

Stanford Corenlp をPythonで使う2(実用的なコーディング、便利な関数の作成)

前回(Stanford Corenlp をPythonで使う1)ではソフトの紹介を行いましたが、続いて実際に僕が使い続けている際に、どういうコードを書けば良いのかを書かせてもらいます。 まず、重要な点として 1:出力がディクショナリという変更可能(ミュータブル)な…

Stanford Corenlp をPythonで使う1(インストール〜ダンプ)

Stanford Corenlp (http://stanfordnlp.github.io/CoreNLP/)は自然言語処理の汎用ツールで、品詞の特定、構文木・依存関係の決定、固有名詞解析、共参照の特定(例えば”This is my friend ,Asami.She is from U.S.”ならthis=my friend=she=Asamiの関係を特定…