「アトリビューション分析」連載 その3:アトリビューション評価に必要なデータ その1

本ブログでのアトリビューション連載第3弾です。今回はアトリビューションを行うために必要なデータを紹介いたします。

【バックナンバー】
「アトリビューション分析」連載 その1:アトリビューションとは?
「アトリビューション分析」連載 その2:アトリビューション評価の難しさ

アトリビューション分析を行うためには、大きく分けて2種類のデータが必要となります。1つ目は「ユーザーの行動」に関するデータ。二つ目は「コストと収益」に関するデータです。



今回はまず、「ユーザーの行動」データを見てみましょう。



1)ユーザーの訪問日時と回数

アトリビューション分析を行う際に必要なのは、通常のアクセス解析ツールのデータとして見える、セッション単位のデータではなくユーザー単位のデータになります。セッション単位ですと、初回やそれ以降の訪問にも成果の貢献を与えるという、アトリビューションの考え方そのものが出来ません。



通常アクセス解析ツールではユーザーの特定をCookieを使って行なっています。初回訪問時にCookieに固有のID*1をセットし、それ以降の訪問はCookieに入っているIDを取得し、同じユーザーという認定をします。これによって、アクセス解析ツールでは新規・リピートの区別などをつけています。



上記はこのブログに追加されているGoogleAnalyticsが送信しているデータを表示しています。
左下に「Visitor ID : 1902150712」という値があるのがわかるかと思います。これが私*2を特定するIDです。

更にその下に履いているデータも見てみましょう。

Session Count : 195
Session Time - First : Sun Jan 09 2011 13:35:57 GMT 0900 (Japan Standard Time)
Session Time - Last : Mon Apr 11 2011 07:24:11 GMT 0900 (Japan Standard Time)
Session Time - Current : Tue Apr 12 2011 20:46:28 GMT 0900 (Japan Standard Time)

上から順番に
Session Count:何回目の訪問か
Session Time - First : 初回訪問日時
Session Time - Last : 前回訪問日時
Session Time - Current : 今回訪問日時


を意味しています。


アトリビューション分析を行う上では、以下のような情報が必要となります。

ユーザーA
1回目の訪問 2月14日 13時15分
2回目の訪問 2月15日 11時02分
3回目の訪問 2月19日 18時11分

ユーザーB
1回目の訪問 2月14日 19時48分
2回目の訪問 2月16日 14時51分

以下略

このような情報があれば、いつユーザー単位でサイトへのアクセスがあったかがわかります。


2)流入元

1)の情報に付随して、どこから流入があったかを把握する必要があります。アトリビューションでは集客の間接効果を見ます。そのためには、どこから集客出来たかがわかる必要があります。必要な情報はサイトに入ってくる前の「リファラー」です。



サイト来訪に貢献したリファラーを取得します。


自分でリンクを貼れるところ(例:リスティング・バナー・メールマガジンソーシャルメディア)などに関しては、広告パラメータを付けることによって、明示的にどこから来たかを把握することが出来ます。


広告パラメータはツールによってつけ方が変わりますが、Google Analyticsの場合はURL生成ツールなどがあります。他のツールでも基本的にはURLにパラメータを付けることで、流入元を見分けます。


例えばあるキーワードで検索した時に、自然検索の部分 と リスティングの部分にサイトへのリンクが出たとします。同じページに貼ってあるので、リファラーは一緒になってしまいます。これでは、区別がつきません。そのため、流入してくるURLにパラメータをつけて区別をします。


自然検索の方はURLにパラメータをつける事が出来ないので、http://example.com/ といった形になります。逆にリスティングは入稿URLを設定出来るため、http://example.com/?cid=listing00001 といった形になります。この場合はリファラーだけではなく、入口ページのURLも流入元を判別するロジックとして使います。なお、検索キーワードに関しては、リファラーのパラメータに入っているので、そちらで取得します。



つまり、1)の情報に加えると

ユーザーA
1回目の訪問 2月14日 13時15分  Google 自然検索
2回目の訪問 2月15日 11時02分  Google リスティング
3回目の訪問 2月19日 18時11分  ノーリファラー メールマガジン

ユーザーB
1回目の訪問 2月14日 19時48分  Yahoo 広告バナー
2回目の訪問 2月16日 14時51分  Twitter 2月16日のつぶやき

以下略

といった形になります。右のほうにあるのが、「リファラー」そして「広告パラメータを元に割り出した流入元」になります。


3)成果

最後に必要なのは、その該当する訪問で成果が発生したか、発生した場合は何回発生したかという情報になります。アトリビューション分析は成果と流入を結びつけるものですので、成果の情報は必須です。


まずは、サイトでどういった内容を成果として設定するかを決める必要があります。通常は「特定のページへのアクセス」になるかと思います。例えば転職案件を掲載しているサイトであれば、「転職申し込み」、BtoBのサイトであれば「資料請求」、ECサイトであれば「商品購入」などが一般的です。


これら成果を設定した上で、訪問に大して成果が何回発生したかをわかる必要があります。これは、各訪問に対して成果が発生しているかを把握する必要があります。ですので、必要なデータとしては、各ユーザーの訪問別閲覧ページになります。いわゆる「ローデータ」と呼ばれるものです。


例えば、以下のような情報があれば、訪問で成果が発生したかがわかります。

ユーザー 訪問回数 アクセス日時 閲覧したページ 成果のページか?
ユーザーA 1回目の訪問 2月14日 13時15分 一覧ページ No
ユーザーA 1回目の訪問 2月14日 13時18分 詳細ページ No
ユーザーA 2回目の訪問 2月15日 11時02分 詳細ページ No
ユーザーA 2回目の訪問 2月15日 11時05分 入力ページ No
ユーザーA 2回目の訪問 2月15日 11時09分 確認ページ No
ユーザーA 2回目の訪問 2月15日 11時10分 完了ページ Yes


この場合、2回目の訪問で成果に1回アクセスしている事がわかります。

これを先程のデータにも追加すると

ユーザーA
1回目の訪問 2月14日 13時15分  Google 自然検索 成果なし
2回目の訪問 2月15日 11時02分  Google リスティング 成果あり
3回目の訪問 2月19日 18時11分  ノーリファラー メールマガジン 成果なし

ユーザーB
1回目の訪問 2月14日 19時48分  Yahoo 広告バナー 成果なし
2回目の訪問 2月16日 14時51分  Twitter 2月16日のつぶやき 成果あり×2回

以下略

まとめ

これで、行動データという観点で、必要なデータが揃いました。「あるユーザーがいつ、どこからサイトにアクセスして、その結果成果に訪れたのか」という事がわかります。しかし、これだけではアトリビューション分析は出来ません。次回では、必要なもうひとつのデータ「コストと収益」を紹介いたします。


今月中に次回を掲載予定です。お楽しみに!

【バックナンバー】
「アトリビューション分析」連載 その1:アトリビューションとは?
「アトリビューション分析」連載 その2:アトリビューション評価の難しさ

*1:例)アクセスしてきた日時+ランダムな値などで生成

*2:厳密にはPCとブラウザの組み合わせ