geomerlin.comのシステム全体図を公開
ちょっとエンジニア向けのページになります。
仕様を公開する意図は
①アドバイスを受けたいこと
②ユーザーを巻き込んだ開発にすること
です
よくありそうな図ですね。
クローリング→自然言語処理→DB保存→ユーザーのリクエストに対してリスポンス
次に細かく書きます。
①クローラ
- 普通にurllibを使用。pyextracontent(python2)をpython3から呼び出し
- 加えてbingNewsAPIから国ごとの情報を取得
- RSSのデータベース(sqlite3)を元にクロール先のurlを決定
- 形態素解析にはMeCabを使用、他にgensimでデータの変形を行っている
- ニュースの場所特定にはdbpediaオントロジーを使用+google nlp apiを使用
- 文書分類にchainerを使用。今のところbagofwordsを入力にしている
- 検索エンジンにはLDAを使用
③サーバーサイド(AWS)
④クライアントサイド