データ分析は知的生産だと思います。知的生産では、大まかな工程はあるものの、各工程で「具体的にどのようなアプローチを取るのか」、いわば「型」と呼べるもはないと思っています。
例えば、ビジネス課題を特定するために、事業部門に課題をヒアリングして、自社の財務諸表を確認して、…といった情報収集を一通り行ったところで、クリティカルな課題を導出できるかどうかは、その人の経験やスキルに依存している印象です。
したがって、「視点」を養うことが大事だと考えています。
この記事では、データ分析の各工程で持つべき「視点」について紹介したいと思います。あくまで、私の失敗談に基づく「視点」なので、必ずしも視点が網羅できていない点をご了承ください。

お品書き
※ 分析実行以降は別記事で紹介します。
- ビジネス課題特定
- 分析課題設計
- 分析の実行
- 分析結果の咀嚼
- 効果検証
- レポーティング
ビジネス課題特定
このフェーズでは、課題を抱えているビジネス上の意思決定を特定します。
例えば、なんらかの資産を売却するタイミングの判断や、調達先・調達量の決定、値付けの決定、新規顧客獲得のためのチャネル選定、顧客活性化施策の対象者・タイミングの決定、などがあげられます。
もっと踏み込んで定義するなら、1. 意思決定と、2. それにより生じる経済的な問題事象、のセットだと考えています。
- 課題を抱えている意思決定(売却のタイミング、調達量の決定、等)
- 生じている経済的な問題事象(売却損が発生している、廃棄コストが高い、等)
課題特定の段階をしくじると、如何に後半のフェーズがうまく行こうとも、大した効果が出ないので、すごく重要です。
ビジネス課題特定のフェーズで持つべき視点は以下3つです。
- 事業のKSF、顧客のKBF、主要コストに関連する課題か?
- Where、What、Why、Howのどのレイヤーの課題か?
- 既存の取り組みは良好か?Noの場合、根本課題は何か?
ここでは、それぞれの視点に関する概要をお伝えします。
具体的な事例を通して、視点を理解したい方は、こちらに私の失敗事例をまとめていますので、ご覧ください。
事業のKSF、顧客のKBF、主要コストに関連する課題か?
重要な課題であるかを確認するために必要な観点です。なお、KSFとは、Key Success Factor、KBFとはKey Buying Factorのことです。横文字が多くてすみません。。
事業が成功や、顧客の購買判断、企業にとってのコスト削減に繋がるような意思決定に関する課題を掘り下げなければ、インパクトが大きい課題を掘り当てることは難しいと考えています。
Where、What、Why、Howのどのレイヤーの課題か?
分析アプローチを間違えないために必要な視点です。Where、What、Why、Howの内容については下記ご覧ください。
目的レイヤーは以下の4つだと思いますが、④Howの話に飛びがちだと感じます。
— なびなび/データサイエンティスト見習い (@napinavi) June 19, 2020
①Where:問題の所在を明らかにする(例:地域A売上減)
②Why:問題の原因を明らかにする(例:競合P台頭)
③What:原因への対処方法を決める(例:値下げ)
④How:対処方法を具体的にする(例:Y円値下げ)
このレイヤーが噛み合わないと、インパクトのある分析はできません。なぜなら、それぞれのレイヤーで必要な分析アプローチが異なるためです。
上記の例だと、
— なびなび/データサイエンティスト見習い (@napinavi) June 19, 2020
①Whereに対してはKPIブレークダウン、
②Why・③Whatに対しては顧客アンケートや定性調査、
④Howに対しては機械学習を用いた最適化、
のように分析アプローチが異なるはずですが、
不適切な目的レイヤーに対して分析した結果、大したインパクトが出せないことが多いです。。
現在、自分が立ち向かっているお題が、上記のどのレイヤーの課題なのかを確認することはもちろんのこと、Where、Whyなどの前提を疑うことも大事だと考えています。
弊社では、業務サイドからは、What、Howレベルのお題を受けることが多いですが、よくよく話を聞いてみると、Where、Whyレベルの前提が怪しかったり、間違っていたりします。
逆に言うと、Where、Whyレベルの前提の誤りを正すことは、業務部門からは嫌がられるかもしれませんが、経営レベルからすると、価値が大きいことなので、データサイエンティストが価値を発揮すべきポイントなのではないかと考えています。
既存の取り組みは良好か?Noの場合、根本課題は何か?
前述の課題のレイヤー(Where、What、Why、How)を見抜くために必要な視点です。
既存の取り組みを掘り下げることにより、根本課題が何か、そもそも特定できているのか等、課題レイヤーを特定するために必要な情報を引出します。
業務部門は、自らの課題レイヤーを把握できていないことが多く、彼らの視点(=既存の取り組み)から情報を引き出すとうまくいく打率が高いと感じています。
分析課題設計
このフェーズでは、特定したビジネス課題を解決するために、分析上の課題を設計します。
機械学習の文脈だと、目的変数と説明変数をデザインすることと同義です。特に目的変数のデザインが重要なので、ここでは、目的変数についてみていきます。
例えば、以下のような例があると思います。
<ビジネス課題>、【分析課題】です。
- <売却タイミングの課題による売却損失>を解決すために、
【売却タイミング別の売却価格を予測する】 - <調達先・調達量決定の課題による調達コスト過多>を解消するために、
【調達先別・調達量別の値引き率を予測する】 - <値付けの課題によるレンタル資産の低稼働率>を解消するために、
【値段別の稼働率を予測する】 - <新規顧客獲得のチャネル選定の課題による新規獲得数の伸び悩み>を解消するために、
【チャネル別の顧客流入量を予測する】 - <顧客活性化施策の対象者選定の課題による施策効果の伸び悩み>を解消するために、
【対象者別タイミング別の施策効果を予測する】
上記では分かりやすいように、左右の平仄が取れるような書き方をしているのですが、実はここが最もクリエイティビティが発揮される場面だと思っています。
分析課題設計(≒目的変数デザイン)のフェーズで持つべき視点は以下3つです。
- 目的変数に工夫の余地がないか?(回帰→分類に変換など)
- 経済指標に影響を及ぼす因子は明確か?データ取得可能か?
- アフターコロナでも役に立つか?
具体的な事例を通して、視点を理解したい方は、こちらをご覧ください。
目的変数に工夫の余地がないか?(回帰→分類に変換など)
分析問題の難易度を調整するために必要な視点です。
ビジネス課題に対して、目的変数は必ずしも1通りではありません。例えば、需要予測の場合、以下のように、数量を予測することも、失注有無を予測することもあり得ます。ただ、必要なデータは異なることがあります。ですので、データ取得の難易度も踏まえたうえで、目的変数をデザインする必要があるのです。
例えば、在庫調整で失注を抑えたい場合、
— なびなび/データサイエンティスト見習い (@napinavi) June 17, 2020
・「需要(数量)」の予測は、失注数の実績データが取得できていないとモデル評価が難しいですが、
(どのくらいの機会損失が発生したのかを評価できないため)
・「失注有無」の予測であれば、失注数データがなくても実現できます。
また、目的変数はいかようにでも設定して良いわけではありません。大前提として、課題を抱えている意思決定が明確になっていることが必要とされます。
目的変数をデザインする上では、課題を抱えている意思決定を具体的に特定できているかどうかが重要だと感じます。
— なびなび/データサイエンティスト見習い (@napinavi) June 17, 2020
上記の例だと、
・在庫のコントロールがうまくいっておらず、失注が発生している
という課題が明確だからこそ、需要→失注有無という目的変数の変更が許されます。
Twitterでは、需要予測の事例を紹介しましたが、他の事例も紹介したいと思います。
例1:出店判断を合理化することで、店舗収益を改善したい場合
- 店舗出店後1年間の利益
- 店舗出店後1年間の利益が一定金額以上かどうか
例2:保有資産の売却判断を合理化することで、売却益を改善したい場合
- 保有資産の資産価値(=売却価格-保有コスト+保有収益)推移
- 今期売った場合の資産価値が来期売った場合の資産価値よりも高いかどうか
例1も、例2も、1つ目の目的変数は回帰問題、2つ目の目的変数は分類問題に対応しています。経験上、分類問題は、回帰問題よりも下記の点で優れていると考えています。そのことを上記の例を通して説明したいと思います。
- A. 意思決定とのつながりを説明しやすい
- B. 異常値の影響を受けにくい
- C. 必要なデータを限定することができる(ことがある)
A. 意思決定とのつながりを説明しやすい
分類問題の良さは意思決定のつながりが明確であることです。例えば、例1の出店判断の場合、結局のところ利益が一定水準を満たしていればどこでも出店したい、というケースが多いと思います。だとすると、いくら儲かるか(回帰)よりも、利益水準を満たすか(分類)の方がお題に対して素直に答えていると思います。
例2の場合、売却判断に使われる情報は、今売った場合の資産価値と、来期以降に売った場合の資産価値とでどちらが大きいか、と言うことだと思います。だとすると、保有資産の資産価値推移(回帰)よりも、今期売った場合の資産価値が来期売った場合の資産価値よりも高いかどうか(分類)の方が、お題に対して素直だと思います。
意思決定とのつながりが説明しやすいと、予測モデルを使った際に得られる効果も説明しやすくなります。混同行列の4象限に照らして損益効果をシミュレーションすることができます。
一方、回帰問題の場合、モデルの精度指標と意思決定の関係性が曖昧です。例えば、MAPE20%で予測できたからと言って、それがビジネスにどうインパクトを及ぼすのか分かりにくいです。
B. 異常値の影響を受けにくい
回帰の場合、目的変数に異常に大きい(または小さい)値が含まれていると、程度問題はありますが、異常値に引っ張られて性能が悪くなってしまいます。
一方、分類であれば、異常値も0/1の2択に分類されるため、予測問題としての性質がよくなります。
C. 必要なデータを限定することができる(ことがある)
需要予測の例で示しましたが、分類問題に置き換えることで、必要なデータを減らすことができる場合があります。
該当するのが、例2の事例です。将来に渡って、資産価値を予測するには、購入から長きにわたっての資産価値のデータが必要になります。しかし、売却後の資産価値のデータは取得できないので、多くのデータが欠損してしまいます。それでも、手元にあるデータを使って分析することはできますが、将来の予測精度は非常に低いでしょう。
一方、分類問題であれば、今期と来期の2期分のデータであれば入手の難易度は低いと考えられます。
以上、A~Cで説明したように、回帰→分類に変換することで、分析問題としての性質がだいぶ変わるので、目的変数をうまくデザインすることが、データサイエンティストにとって重要なタスクだと考えています。
なお、目的変数のデザインに関しては、今話題の(?)「戦略的データサイエンス入門」に具体事例をもとに解説されており、参考になりました。
経済指標に影響を及ぼす因子は明確か?データ取得可能か?
予測モデルによって、施策の因果効果を立証するために必要な視点です。ABテストで実証すれば良いのですが、因果効果の立証に予測モデルを用いる必要がある場合を想定しています。
大規模な施策を打つ前には、必ず因果効果を立証しておく必要があります。原因となる因子に関するデータを取得できていない場合、予測モデルから導出される効果にバイアスが含まれる可能性があるため、慎重に確認する必要があります。
先に原因に関する因子を洗い出した上で、必要なデータが無いのであれば、収集する期間を設ける、というのが確実かもしれません。また、前提知識として、因果推論を抑えておくと良いと思います(と言っても私も勉強中ですが)。
因果推論に関しては、下記の書籍が参考になると思います。
- 「原因と結果」の経済学―――データから真実を見抜く思考法
- 数式を使わずに因果推論の考え方や、手法の信憑性レベルが体系的に整理されており、ビジネスパーソンが因果推論を学ぶにあたり最初に読むのに適していると思います。
- 岩波データサイエンス Vol.3
- 数式も使いながら、具体事例を交えて丁寧に整理されています。「原因と結果」の経済学の次に読むのがお勧めです。
- 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎
- 数式とRのコード例がセットになっており、実務で効果検証を実行するデータサイエンティスト向けだと思います。因果推論何も知らない状態から入ると辛いので、上記の入門編の次のステップとして読むのが良いと思います。
アフターコロナでも役に立つか?
個別の観点ですが、これから結構問題になりそうなので、記載しました。
「コロナ前のデータを使った予測が、コロナ後にも使えそうか」、という点について、事業現場の肌感覚も踏まえながら慎重に判断すべきだと考えています。
そういえば、本日参加したダイナミックプライシングのセミナーでも、コロナ前後でデータの傾向が変わってしまったことが話題に上がっていました。また、ある人は、「データが腐る」と言う表現をしていて非常にしっくりきました。
データが腐っていないか、確認するようにしましょう。
最後に
以上、企画フェーズにおける視点をご紹介しました。
またどこかでお会いしましょう!