この投稿はアイスタイル Advent Calender 2019 の2日目の記事です。
istyleで分析基盤の構築・運用を行っているやすです。
主にBigQueryを中心としたGoogle Cloud Platform, DigdagやEmbulkなどのETLアプリケーション, Redashといった技術を日々の業務では取り扱っています。最近はアナリストの環境改善や分析の組織に思いを馳せたりしています。
istyle Group のデータについて
istyle Groupは16の連結子会社で構成されており、BtoC、BtoBtoC、小売、卸、ECなどなど化粧品を中心としたBeautyを想起させる市場のあらゆるポイントに携わる事業に取り組んでおります。
主要サービスはユーザーの会員IDや商品、ブランドのIDが連携されていますので、会社を横断したユーザー分析などが可能になっています。
各事業セグメントで扱っているDBの種類も違えば外部サービスのDBを取り込み、連携している部分もある中で Business Intelligence を支える技術をデータのライフサイクルに乗って「計測」「管理」「分析」の順に今日はご紹介させていただきます!
計測
Google Analytics
Web上のユーザー行動ログはGoogle Analyticsを用いて計測しています。カスタムディメンション機能 を用いることでユーザーの会員IDやプレミアム会員に入会しているかなどを取得して、サービスのDBと結合し、属性分析やクチコミなどのアクション数に応じたセグメント別分析などを行うのに利用しています。
クチコミメディアの@cosmeと ECサイトの @cosme shopping はクロスドメイントラッキング を用いて異なるドメイン間のユーザー計測を行えるよう設定しており、ユーザーの商品への「認知」から「購買」までを分析することが可能です。
前述の通りユーザーのIDや商品が連携しているので、Webの @cosme を見た後に、リアル店舗の @cosme store で購買したかがわかり、O2O施策の分析などにも利用しています。
Google Analytics for Firebase
モバイルアプリのユーザー行動ログはGoogle Analytics for Firebaseを用いています。WebのGoogle Analyticsとちがい、スキーマレスでkey-valueが定義可能なのでURLのないモバイルアプリ計測では、スクリーン名だけでなくどの商品、どの記事IDかなどを自由な形式で送信できるので大変重宝しています。
Google アナリティクス 360 スイート
これらのGoogle製品の計測・レポートサービスはGoogle アナリティクス 360 スイートを契約しているので、BigQueryへのユーザー行動データのエクスポートを行い、サービスのグロースやBtoBのマーケッターサポートツールBrand Officialの機能に活用されたりしています。
istyle-analytics-js
内製の計測ツールです。フロントはjsでapiを叩いてgo製のパース、タイムスタンプ付与サーバに流れ、その後kafka,Elasticsearchを経由後、HDFSやBigQueryに格納されています。Google Analyticsでは大量送信してしまうと金額に響くイベントの フィード画面の記事などのインプレッション計測に用いられています。 (下記画像の赤枠部分など)
管理
BigQuery
アナリストの分析環境や前述のBrand Official の集計基盤としても活用されています。 またデータウェアハウスとしても活用されており、40以上のDBのデータが日次で同期されています。 現在データウェアハウスをHDFS上にも作成していて、そちらはレコメンドや機械学習向けとして活用されています。
現在既存PJTの住み分け、権限付与などの運用ポリシー見直していて、アナリストに快適で安心して分析できる環境を整備中です。
embulk, digdag
最近の Business Intelligence 周辺のETLはこの組み合わせが多いです。理由として以下が挙げられます。embulk, digdagはシンプルな記述でのETLがアナリストでも開発・保守できるからです。
分析
redash
データ抽出兼ダッシュボードツールとして活用されています。弊社では昔から内製の「抽出君」と呼ばれるツールがありましたが、データソースの多様化に伴い、redashに移行しています。 登録されているクエリの数は1500を超えています。 導入が2017年のversion 1の時から動いており現在version 8へのアップデート作業を準備中です。 年内には最新versionまで追いつきたい!!
一応自分がredash meetupでLTした時の記事を貼っておきます。
関連記事: 「redash 運用アンチパターン」というタイトルでredash meetup v4 で LT発表してきた
python
会社を横断した分析を依頼とは別にチーム発信でグループ横断のデータ分析を行い、発信を行っております。主にアドホックな分析の可視化やクチコミを利用した自然言語の解析を行っております。実際にどんなことをしているかの例として以下の記事が公開されていますので、ぜひご覧ください!
- Python seabornを利用して「競合」の定義を考える – istyle Tech Blog
- fastTextでカテゴリ分類してみた – istyle Tech Blog
- 自然言語処理の手法と応用技術 – istyle Tech Blog
その他
GitLab
アナリストのコード管理に使用しています。探索的に分析することが多くファイル更新が激しいアナリストにとってこそ必要なツールだと考え活用しています。最近では事業部への普及も始めており、教育STEPも固まり始めました。
JIRA
チームに今年からタスク管理ツールとしてJIRAを導入しました。目的としては一時期以来タスクに忙殺されていたため(僕一人とパートナーさん一人しかいない時期があって…)、依頼を減らすための改善も行うことができないことがあり、チーム状況の可視化として導入しました。
当初は他部署からの依頼タスクが大半を占めていました。現在は半々ほどにはまで調整を行い、改善タスクやistyle Groupを横断したデータ分析から改善施策の提案を自分達から働きかける動きを始めています。
Confluence
ドキュメント管理ツールとして作業手順書やデータ分析のレポートログとしても使用しています。
今後の展望
今後は以下のようなことに取り組む予定です。
- 会社の全サービスのテーブル定義書を一元管理するアプリケーションの開発
- サービスグロースのための予測モデル構築・因果関係の調査
- 事業全体のKPIツリーの作成
ぜひあなたに来て欲しい
istyle Groupはプラットフォーム事業で異なる業界のデータが密接に結合しています。データアナリストは業界によって色が違い、どの業界に行くべきか迷う時もあると思いますが、Beautyを軸に市場のあらゆる領域(メディア、小売、卸、BtoC、BtoBtoC、etc.)のデータに触れることができるのがistyle Groupの特色です。
チームに今年の4月から2名入りましたが、プラットフォーム全体のデータ分析体験の向上をするためにはまだまだ足りないです。Business Intelligence を支えてくれる人に来ていただきたいです!!
興味を持っていただけた方やお話を聞いてみたいという方は以下のリンクからエントリーお願いします!ライトにテキストで話を聞いてみたいという方は @YASU11552288 までDM、メンション飛ばしていただければと思います!