読者です 読者をやめる 読者になる 読者になる

思想をpythonで計算する

仕様を公開してアドバイスを受けながら geomerlin.com を構築していくスタイル。このシステムではデータサイエンスと人工知能技術により地政学リスクを算出しています。

地政学リスク(GPR)を算出する知能システムを組んだ

要約地政学リスクの教師データを作成し、ディープラーニングシステムを組んだ。タイトルを入力すると地政学リスクが算出されるシステムである。

 

トランプvs北朝鮮の市場への影響が発端となって、「地政学リスク」という単語がまた注目されている。

どのくらい注目されているのかは下図で一発(検索回数)

 

  しかし、「リスク」という表現がなされているだけで、メディアではどういう指標でどうやって算出しているかが全く報じられていない。

 もし地政学リスクが算出できるものでないならば、そのような表現をする必要がどのくらいあるだろうか?「地政学リスク」ではなく「危険性」でよくないだろうか?

むろん地政学界隈の先生方はそんな状況を許すわけがなく、ちゃんとGPRと言う指標が次の論文で指摘されている。

Dario Caldara , Matteo Iacoviello 共著 「地政学リスクを算出する」

https://www2.bc.edu/matteo-iacoviello/gpr_files/GPR_PAPER.pdf

 

この論文から次のグラフを引用させて頂く

f:id:geomerlin-com:20170416222122p:plain

このグラフがGPRの月次グラフであり、データセットも公開されている。

GPRの算出方法は論文中に書いてあるのでここでは割愛させて頂く。

すこし西側中心の指標に見えてしまうのは、”地政学リスク”の定義が「地政学的要因による市場への波及リスク」であることを考えれば、差し引いて納得できるのではと思う。

最も重要なことは、これにより教師データが作れるというところにある

というわけで各年月次の地政学的事象をwikipediaデータから取得し、これとGPRをセットにして教師データを作成した。

これをニューラルネットワーク(chainer)で学習させ、文章(ヘッドライン)に対してGPRが近似として算出するシステムとなった。

ニューラルネットの構成は次のとおりである

①入力はBagOfWords形式

ドロップアウトなし

③出力層は1ユニット、GPRをそのまま出力

 

結果がつぎのとおり。

次の僕が勝手に作ったヘッドラインを打ち込んで見る。

①"アジア経済が再び成長の兆し、ドル高の影響か?"
②"ロシア,ユーゴ空爆。1000人死亡"
③"アメリカ,ユーゴへ空爆。1000人死亡"
④"フランス、シリアへ軍事介入。空爆を開始"
⑤"アメリカで同時テロ発生1000人死亡。ISILか?"
⑥"アメリカ陸軍、イラクへ再び侵攻。イラク戦争再燃”

①GPR:52.08543396
②GPR:67.87326813
③GPR:89.07659912
④GPR:98.18653107
⑤GPR:118.4070816
⑥GPR:165.49940491

 

予想通りの順番にはなった。個人的には②が小さすぎるかな?

とにもかくにも、ある程度マトモな地政学リスクの導出システムができた。

これはgeomerlinにすぐに反映させようと思う。そして改良していきたい思う。

geomerlin.com