インフラ監視体制を見直しているのだが、もう俺は限界かもしれない(注:タイトルは釣りです)

横澤です、いつもお世話になっております。 色々とあって苗字表記を今まで使っていた簡略表記の横沢から正式名称の横澤に切り替えています。過去ログは直すの面倒なのでそのままですが、誤表記ではないので気にしないでください。

本日はイタンジサービスのインフラ監視体制について話しています。ぶっちゃけこの分野が得意という訳では無いのであまり目新しい内容は無いのですが、「これからサービスを運営するので必要最低限の監視体制が欲しい!」という要望には一つの解になるかもです。また、晒すことで各方面から気持の篭ったマサカリを賜れば幸いでございます。

【これまでの話】 今まではメトリクス兼監視にnewrelic、以上!という漢らしい状況でした。newrelicはAWSクーポンでディスカウント利用出来るのでパパッと導入してほぼそれっきりという状態でした。大分カジュアルなのは認識していて、いい加減限界が見え隠れしてるよなーと考えていたところ、色々とあってクライアント向けサービスのエンドポイントが死ぬ!という事件があったので慌ててpingdomを入れたりしました。

【今回やってみた話】 この事件がきっかけではありましたが、現在は幸いにも足回り整備に力を割ける心の余裕会社環境が出来てきたのでこんな事をやってみました。 ・機械学習モデルを実行しているpythonデーモンのプロセス監視をnewrelic上に導入 ・pingdomの追加でインシデント発生ポイントが複数になったのでpagerdutyで取りまとめ ・AWSリソースがほぼ手動管理だったのでterraformで一部コード化 ・レポジトリ構成が複雑化してきたので一部開発環境をdocker化

【これからの話】 他にもやりたい事はいくらでもあって、 データストアが破綻しかけているのでそろそろredshiftとかgoogle big queryに移行したいなぁ・・とか ログ収集周りが緩いのでlogentriesとか入れてグローバルに収集したいなぁ・・とか terraformでchef引退まで考えていたけど無理ゲーっぽいのでansibleを評価してみたりしたいなぁ・・とか やりたい事が色々あるけど全くもって手が回ってない状況でございます。

という訳でイタンジではCIとかインフラ自動化とかデータ基盤整備とか。その辺りを思うがままにやっていきたいインフラエンジニアを募集中です。