「エンゲージメント」をアクセスログから計るための7つの変数と公式

ユーザー(あるいはセッション)がどれくらいサイトに興味を持っているか、どれくらい「コンバージョンしやすいか?」を表す公式がWebAnalyticsDemysitifiedで公開されました。その公式とは以下の通りです。*1

VE=Σ(Ci+Di+Ri+Li+Bi+Fi+Ii)

変数の意味は以下の通りです。

VE(Visitor Engagement) = エンゲージメント度合い
Ci (Click Depth Index) = ページ閲覧や成果を表す変数
Di (Duration Index) = サイトでの滞在時間を表す変数
Ri (Recency Index) = 来訪頻度を表す変数
Li (Loyalty Index) = サイトに滞在している期間を表す変数
Bi (Brand Index) = サイトのブランドをどれくらい理解しているかを表す変数
Fi (Feedback Index) = サイトへのフィードバックといった定性情報を表す変数
Ii (Interaction Index) = エンゲージメントに繋がるアクションを行ったことを表す変数
※全ての変数はパーセンテージ(%)で記されます



これらの7つの数字の平均が「エンゲージメント度合い」を表す指標になります。エンゲージメントの定義などに関しては、前回の記事をご覧ください。この7つの指標を計算すれば、サイトの特性・種類に関係なく、流入元・キーワード・新規/リピーター・訪問回数別などでエンゲージメントを計算する事が出来ます。ちなみにこの公式は基本版です。応用版に関してはこの記事の最後で簡単に触れます。では、これらの指標を計算する方法を示す前に、この公式を使うためのいくつかの条件を記載いたします。


★必須条件
・「エンゲージメント度合い」を計算出来ること。
・その「エンゲージメント度合い」を変数として、既存レポートの横に追加出来ること。つまり、「リンク元URL」や「流入キーワード」別に「エンゲージメント度合い」の数字を計測出来ること。

★希望条件
・変数同士(エンゲージメント度合いも含み)でクロス集計が出来る機能。
・非HTMLページのアクションも取れるアクセス解析ツール(特定のリンクのクリック、ファイルのダウンロードなど)




上記の条件を満たすためには

1)アクセス解析ツール上で好きな変数を四則演算を使って作成出来る機能がある(SiteCatalystやWebTrends Score、CoreMetrics Explorer等のハイエンドツール*2
2)Apacheログ(生ログ)をダウンロードしてAccess・BIツールデータマイニングツール(Clementine等)を使ってローカルで計算出来る。*3

という2種類の方法があります。


apacheログに関しては、自分たちでサーバーを持っている企業のサイトであれば、ほぼ間違いなく取得しています。また、大半のホスティングサービス(さくらインターネットXREA.COMBIGLOBEオフィスホームページサービス等)でもapacheログを提供しています。それ以外にもアクセス解析ツールでの機能としての提供や(AccessAnalyzer等)。他にも、FC2ロリポップドリコムCMSなどサービスに組み込まれた物もあります。*4ちなみにGoogle Analyticsではこの機能が提供されていません。他にもサービスとしてアクセスログダウンロードを提供しているところがありましたら、ぜひコメント欄で教えてください。


では、いよいよ公式中身を見ていきましょう。


Ci (Click Depth Index) = ページ閲覧や成果を表す変数

計算方法

ΣCi=「特定のページ数」以上のセッション数 ÷ 全セッション数


説明
この変数はサイト内での深度をあらわします。特定のページ数以上見たセッションはエンゲージメントが上がったという事です。ここでいう「特定のページ数」に関してはサイトごとに違うため、サイトごとに閾値(しきいち)を設定する必要があります。サイトのゴールに到達するためにかかる最低のページ遷移数を設定しましょう。たとえば宿の予約だとしたら、最短ルートとして「詳細ページ→個人情報入力画面1→個人情報入力画面2→確認画面→完了画面」という事で5ページと設定するのが良いかと思います*5


リンク元ドメイン別流入数・Ci値・平均閲覧ページ数(Ci値降順)
webanalyticsassoiciation.org 238 40% 9.03
blogspot.com 209 27% 5.89
yahoo.com 720 26% 5.25
google.com 5441 15% 5.12
wikipedia.org 196 15% 4.18
live.com 345 14% 4.45
google.co.uk 788 14% 3.85
msn.com 172 6% 2.76
images.google.fr 163 4% 2.56
stumbleupon.com 957 0% 2.08

WebAnalyticsDemysitifiedのホワイトペーパー「Measuring the Immeasurable: Visitor Engagement」より

例から分かる事(一部)
・Ci値の平均閲覧ページ数は(当然ながら)相関性がある
Googleが一番流入を連れてきているが、Ci値は15%程度しか無い。
・WebAnalyticsAssociation.orgは平均閲覧ページ数が9もあるが、それ以上に40%のセッションが5ページ以上であった事を知る方が興味深い
・下位3つのサイトはどれも平均2〜3ページの閲覧だが、Ciの値には差がある。


Di (Duration Index) = サイトでの滞在時間を表す変数

計算方法

ΣDi=「特定の滞在時間」以上のセッション数 ÷ 全セッション数


説明
この変数はサイト内での滞在時間を表す指標です。特定の滞在時間以上のセッションはエンゲージメントが上がったという事です。ここでいう「特定の滞在時間」に関してはサイトごとに違うため、サイトごとに閾値を設定する必要があります。サイトのアクションを完了するのにかかる時間、あるいはサイトの目的と内容を理解するのにかかる時間を設定します。


リンク元ドメイン別Di値・(前述の)Ci値 (Di値降順)
webanalyticsassoiciation.org 20% 40%
blogspot.com 20% 27%
google.com 17% 26%
yahoo.com 16% 25%
wikipedia.org 14% 15%
google.co.uk 14% 14%
live.com 9% 14%
msn.com 8% 6%
stumbleupon.com 7% 0%
images.google.fr 7% 4%

WebAnalyticsDemysitifiedのホワイトペーパー「Measuring the Immeasurable: Visitor Engagement」より

例から分かる事(一部)
・Di値とCi値は相関性がある
・WebAnalyticsAssociationからの流入は閲覧ページ数の閾値は超えやすいが、滞在時間の閾値はそれほど超えにくい(つまり多くのページを早く見ているようなセッションが多め)
・逆にStumbleupon.comなどは、閲覧ページ数に関してはほとんど閾値を超えないが、少ないページ数をゆっくり見る傾向にある。
・Di値とCi値は相関性はあるものの、片方だけではエンゲージメント度合いは測れない。


Ri (Recency Index) = 来訪頻度を表す変数

計算方法と例

Ri= 1 / 最新の訪問間隔(日数)

ΣRi= Ri / セッション数


例えば一人のユーザーが1月6日及び1月8日にサイトに訪れ、もう一人のユーザーが1月7日だけ訪れていた場合

Ri= 1/[(8-6)+0]
Ri= 0.5

ΣRi= 0.5 / 3 = 0.17

という事でこの二人のユーザー(あるいは3つのセッション)のRi値は0.25になります。


説明
この変数はどれくらいの頻度でサイトに訪れているかを数値化した物です。より頻繁にサイトに訪れる程「エンゲージメント度合い」が高くなるなるという前提です。上記の計算式からもわかるように良くサイトに訪れる訪問間隔が短い人が多ければ数字は大きくなり、逆もまた然りです。


Li (Loyalty Index) = サイトに滞在している期間を表す変数

計算方法と例

Li= 1- (1 / 集計期間での訪問回数)

ΣLi= 1- (1/[訪問回数÷訪問者数])


集計期間の間に、Aさんが4回訪問した場合のLiは以下の通りです
Aさん
Li= 1- (1/4)
Li= 0.75

AさんとBさんがgoogle.comから来て、Aさんは4回訪問、Bさんは2回訪問したときのgoogle.comのLi値は

ΣLi= 1- (1/[(4+2)/])
ΣLi= 1- (1/3)
ΣLi= 0.67

となります。


説明
この変数は決まった期間に、何回サイトに訪れているかを表しています。前述のRiとにていますが、Riは頻度を表しており、Liは回数を表しています。そのため、二つの数字に関しては相関関係が強いですが、集計期間によってLiの数字とRiの数字は変わってきます。


Bi (Brand Index) = サイトのブランドをどれくらい理解しているかを表す変数

計算方法

ΣBi=(ブランドワードあるいはノーリファラーが含まれるセッション数)÷全セッション数


説明
この変数を使うためには、会社名・ブランド名・商品名といった「ブランドワード」のリストを作る必要があります。例えばアップル社であればApple, Apple Computer, iPod, iPod Touch, iPhone, iMac, iTunes, Mac Pro,OS X(以下略)などが考えられるかと思います。同じように自分のサイトでもブランドワードとなるワードをリストアップします。


リストアップした後、ブランドワードで入ってきたセッション数÷全セッション数で計算を行います。*6またノーリファラーに関してもブランドを認知していると仮定する事はおかしくないので、「ブランドワードあるいはノーリファラーが含まれるセッション数÷全セッション数」という計算をした方が精度が上がります。


ブランドワードでサイトに入ってくると言うことは、既にサイトの中身であったり目的を知っていると言えるので、Biの値に含んでいるという事です。またノーリファラーに関しても、いわゆる「URL直打ち」「メルマガのクリック」「ブックマーク」などの類は既にサイトを知っている(つまりエンゲージメントしている)という事なのであわせてBiに含んでいます。今回紹介している基本編の公式では、ブランドワードあり・なしで1か0の判定を行っていますが、応用編ではブランドワードに重み付けなどをする物もあります。


Fi (Feedback Index) = サイトへのフィードバックといった定性情報を表す変数

計算方法

ΣFi=フィードバックがあったセッション数÷全セッション数


説明
セッション内でフィードバックあるいはユーザからの情報送信があったか無かったかで判断をする変数です。ここでいうフィードバックや情報送信というのは、

・(EC系のサイトなどにある)評価システム入力完了画面
・アンケート回答完了画面
・サイトへの意見入力フォーム完了画面
・問い合わせ送信完了画面
・問い合わせ用のe-mailアドレスのリンクをクリック
・ブログ等で、アイコンを押して記事を評価

といった内容になります。*7これらを数えて計算すればFiの値が出るという寸法です。


上記の方法は簡単な方法で、より精緻に計測をするのであれば、送られた内容がポジティブなものだったのか、ネガティブだったのかを考慮する必要があります。5段階評価にして4点以上の物だけをFiの値として数えたり、定性的な情報をローカルで数値化してログと紐づけたりとかなり大変な作業になります。もしこれらを実現出来るのであれば、前述のFiの値と併せて、以下の式で計算をしましょう。

ΣFi=(フィードバックがあったセッション数÷全セッション数)/2 + (ポジティブなフィードバックがあったセッション数÷全セッション数)/2

これによって両方の数字を考慮する事が出来ます。


Ii (Interaction Index) = エンゲージメントに繋がるアクションを行ったことを表す変数

計算方法

ΣIi=アクションを行ったセッション数÷全セッション数

説明
サイト内でエンゲージメントに繋がるようなアクションを定義します。Bi(Brand Index)のようにまずサイト内でエンゲージメントに繋がるようなアクションは何であるか?というのを定義する必要があります。考えられるアクションの例は

・商品に関する購入レポートを書いた
・ブログにコメントを書いた
・ブックマークをするというリンクを押した
ソーシャルブックマーク登録ボタンやRSS登録ボタンを押した
・PDFをダウンロードした
・商品をショッピングカートに追加した
・会員登録を行った
・商品の紹介動画を閲覧した
メールマガジンに登録した

といった内容になります。ここで注意しないといけないのは、「サイトのゴール」そのものを入れるわけではないという所です。あくまでもサイトへのエンゲージメントが増えるようなアクションを対象にしています。この公式はコンバージョンした人を分析するのではなく*8、まだコンバージョンしていないけど、今後コンバージョンしそうな流入元であったり、特定のキーワードで入ってくる人はどれくらいサイトを理解しているかの数値化し比較するための物です。なので、サイトのゴールに関しては対象にしないでください。


いったん、アクションが明確になったら、後はセッションごとに、そのアクションのどれか一つでも行っているかをチェックしていきます。特定のページ閲覧であれば簡単に判断できるかと思いますが、pdfダウンロードや動画閲覧などに関しては、計測自体がちゃんと出来るように計測タグないしログを設計し実装する必要があります。特定のページ閲覧だけで大半のアクションがカバーできるようであれば難しい実装は気にする必要有りません。


これらアクションの定義をどうやって行うか?に関しては、サイトを知っている人にいろいろ聞いてみるのが早いです。通常であれば、サイトの目的またそれに繋がるアクションというのは、サイトを知っている人であれば、大きくぶれないはずです。逆にこれがぶれるようであれば、改めてサイトのゴールを明確化させる必要があるでしょう。


いくつかのポイント

・Ci及びDi閾値に関してはサイトの特性によって変わってきます。あまりに低い閾値を設定してしまうと、比較がしずらいので(差が生まれずらいため)、少し高めに閾値を設定する事をオススメします。

・7個全ての変数を計算するのは大変なので、1つあるいは2つ程度であれば、比較という意味では除外をしても問題ありません。

・最終的に出てくる「エンゲージメント度合い(VE)」の数値そのものに大きな意味は無く比較のための数字になります。異なるリンク元URL別での比較はもちろん、「特定のキーワードと特定のリンク元」の比較であったり、サイトで使っている検索軸別での比較であったり、サイトで会員IDを取っていてログと紐付いていれば、会員ID別の比較であったり、違いサイト同士の比較も出来る汎用性が広い値になります。


計算結果とそこから読み解ける内容

前半で使っていたリンク元URL別の集計という軸で、リンク元別の各変数の数字と「エンゲージメント度合い(VE)」をまとめた物が以下の通りです。

データはWebAnalyticsDemysitifiedのホワイトペーパー「Measuring the Immeasurable: Visitor Engagement」より


見ての通りこの公式の計算では、リンク元URLから「どれくらいの数の流入があったか」というのは計算に考慮されず結果にも出てきません。どれくらい流入があったか?といった内容に関しアクセス解析で取得できる、PV・訪問回数・訪問者数といった馴染みのあるう数字が使えます。前述の通り、VEや各変数の値は比較用にあるため、流入量やサイトのPV規模に影響される物ではありません。


各変数の高い・低い流入元がどこにあるか?またVEが高い数値はどの流入もとなのか?という事を分析する事によって、改善のポイントが見えてきます。




いったん、公式の説明はここで完了となります。

最後にWebAnalyticsDemystifiedで作成された画面とそれぞれの画面でどのような集計をしているかを記して終わりにいたします。分析の参考にしていただければと思います。



グラフ1:特定のキャンペーン時に購入したキーワード別の「エンゲージメント度合い(VE値)が高い値の比率」「エンゲージメント度合いが低い値の比率」「VE値」
コンテンツ系のサイトで、サイト内で明確なゴールがないサイトの場合、コンバージョンレートとかは非常に使いづらいが、VEの値であればゴールがなくても使える便利な指標である。



グラフ2:ランディングページ別の「VE値が高い値の比率」「VE値」



グラフ3:ブログへの有料集客流入のランディングページ別「エントリーレート(2ページ以上の閲覧比率)」と「VE値が高い値の比率」



グラフ4:リファラーごとの「流入比率」と「VE値が低い値の比率」



グラフ5:ページ別の「VE値が高い値の比率」「セッションあたりの平均閲覧ページ数」「平均滞在時間」
ページの評価は「平均閲覧ページ数」や「平均滞在時間」だけで評価をしてしまうと間違えてしまうという例を表しています。滞在時間が長かったり、閲覧ページ数が多くても、エンゲージメントが高いとは限りません。



グラフ6:アクセス元別の「VE値」と「VE値が高い値の比率」
これらを見ることによって「見込み企業や顧客」が今まで以上に、どれだけサイトやサービスに興味を持っているかが分るようになります。



グラフ7:メールアドレス別の「VE値」と「セッション単位のVE値」と「慣性」
個人単位でどれくらいサイトに興味を持っているかまで把握出来ちゃいます。ここでいう「慣性」とはセッション単位のVE値 − VE値 の計算式で表され、時間が立つことによって(=複数回訪問することによって)、どれくらいエンゲージメント度合いが上がってきているかという意味を持ちます。



グラフ8:セッション単位でのVE分布、エンゲージメント度合いを3つのグループに分け、それぞれの比率・1ユーザーあたりの訪問回数・購入にまで至った比率


応用編に関して

この記事で紹介している公式は基本編であり、応用編は別にあるという説明をいたしました。この応用編に関しては、数学的にも非常に複雑な内容となっています。応用編は基本編の内容に対して「アクション・フィードバック・ブランドワードの重み付け」「同じ次元を持つ変数のグルーピング」「各変数の単位統一化」などを行っています。上記の内容を理解出来て、数学的な素養がある方はぜひオリジナルのpdf(英文)をご確認の上、チャレンジしてみてください。

*1:本記事の内容はでWebAnalyticsDemysitified公開されたホワイトペーパー「Measuring the Immeasurable: Visitor Engagement」からの意訳と私自身の気づき及び考えを盛り込んだ内容となっています。

*2:日本のツールでこういうサービスを提供している物が思いつかなかったのですが、ご存じの方はぜひコメント欄で教えてください

*3:サイト規模が小規模であればExcelでもなんとか可能かも

*4:自分の目で確認はしておらず、サイト上の情報を元に判断しています

*5:サイト内で複数のゴールがある場合は一番重要なゴールにかかるページ遷移数で設定しましょう。複数のゴールをそれぞれごとに考慮するのは小用版の公式での対応になります

*6:複数ワードで検索した場合、その複数の中に一つでもブランドワードが含まれていた場合はカウントします

*7:サイトのゴールではなく、あくまでもフィードバックを行った画面になります

*8:それはKPIなりCPAなりCVR等で出せます