ジオマーリン

geomerlin.com に関することを中心に。難しいことをもっと難しく書くブログ。

geomerlin.comのシステム全体図を公開

geomerlin.com

ちょっとエンジニア向けのページになります。

仕様を公開する意図は

①アドバイスを受けたいこと

②ユーザーを巻き込んだ開発にすること

です

f:id:geomerlin-com:20170410221117p:plain

よくありそうな図ですね。

クローリング→自然言語処理→DB保存→ユーザーのリクエストに対してリスポンス

次に細かく書きます。

①クローラ

普通にurllibを使用。pyextracontent（python2）をpython3から呼び出し
加えてbingNewsAPIから国ごとの情報を取得
RSSのデータベース（sqlite3）を元にクロール先のurlを決定

②自然言語処理

形態素解析にはMeCabを使用、他にgensimでデータの変形を行っている
ニュースの場所特定にはdbpediaオントロジーを使用＋google nlp apiを使用
文書分類にchainerを使用。今のところbagofwordsを入力にしている
検索エンジンにはLDAを使用

③サーバーサイド（AWS）

データベースをDynamoで組んだ。クエリはboto3で処理
APIのセットアップにはAPI Gatewayを使用
lambdaで色々仲介処理を行った
認証はCognito
プロフィール画像はS3で

④クライアントサイド

可視化（特に地球儀・エフェクト）をD3で処理。
リクエストはAjax
いくつかUIをbootstrap
タップイベントとかはjqueryで
スマホアプリはMonaca+Inappbrowserプラグインで