
2.5 基于购买行为的客户评论次数预测

图2-14 整体分析框架
本节继续从个体层面出发,对评论价值进行计算。第一步先构建Logit回归分析模型进行影响客户评论流失的影响因素分析并利用Logit模型进行客户评论流失行为预测;第二步将找到的关键变量作为协变量引入Pareto/NBD模型中,改进客户的评论次数预测。具体分析框架如图2-14所示。
2.5.1 Logit回归模型预测客户评论流失
1.Logit回归模型概念框架
前述研究中已经表明了消费者的评论行为会对其自身的购买行为产生影响。同样地,消费者自身的购买行为可能也会对其评论行为产生影响。越来越多的消费者倾向于在产生购买行为后进行评价,用户产生的购买情况越多,其发生评论行为的概率也会增加,这使得企业在进行用户评论行为流失时能够更加全面地进行因素的考虑,进而进一步完善消费者评论流失的预测模型。目前,还未有研究者对消费者的评论流失行为进行预测。因此,本节延续上述研究框架,引入消费者的当前评论行为和当前购买行为,重点研究消费者自身购买行为是否会对其评论流失行为产生影响以及是否能够提高用户评论流失的预测准确性。本节提出的概念模型框架如图2-15所示,其中消费者当前的购买行为和当前评论行为为自变量,消费者下一阶段的评论流失行为为因变量,消费者自身因素为控制变量。

图2-15 概念模型
2.基本模型的建立
同样地,为了了解用户当前期的评论行为、购买行为以及其自身因素对消费者下一阶段的评论流失行为的影响,建立更加精准的流失预测模型,本节同样建立了基于用户评论流失行为的Logit回归分析模型,研究基于大众点评网的数据进行分析和研究。
消费者的评论流失模型主要是对消费者评论流失的影响因素进行分析及预测的模型。该模型的因变量为用户下一阶段的消费者评论流失情况(Churnit)。该模型的自变量包括消费者当前购买行为以及消费者当前评论行为,控制变量为消费者的自身因素。由于消费者的流失行为是一个二分变量(仅有流失1和未流失0两个状态),因此我们采用Logit回归模型进行分析。消费者的评论流失预测模型的基础公式为


其中,Churnit代表用户i在下一阶段的评论流失概率,是一个二分变量;Purchaseit-1是用户i在当前期的购买行为信息,例如购买金额、购买次数等;Commentit-1是用户i在当前期的评论行为信息,例如评论次数、评论累计贡献等;Useri作为控制变量是用户i的基本信息,例如用户的性别、年龄等,该信息可以在大众点评网点评平台上提取。α,μ,θ是三类自变量的系数,则是随机误差项,它代表了因变量所受到的模型中所未能表示出来的潜在影响εit-1。
3.模型变量设计及统计
本节的数据同样来源于在线评论网站大众点评网:随机选取了在2011年1月1日至2011年6月30日期间产生评论行为的消费者,提取了这些消费者在2011年1月1日至2011年6月30日在大众点评网产生的评论行为、购买行为及人口统计学特征数据,作为自变量;同时选取了2011年7月1日至2011年9月30日这些用户的评论次数,同时认为在这三个月内消费者未产生评论行为即认为产生了评论流失,记为1;产生了评论行为即认为未产生评论流失行为,记为0。最终,我们选定了589名大众点评网消费者,提取了这些用户的团购数据和评论数据,其中自变量和因变量的提取时间划分如图2-16所示。

图2-16 自变量、因变量提取期
1)模型因变量
大众点评网的数据中提供消费者在一段时间内的所有评论记录,包括评论的次数、评论的时间、每次评论的贡献值等,这使得我们对消费者的评论流失行为的研究成为可能。依据本章所建立的基本模型,将用户在下一阶段(三个月)的评论流失行为作为因变量。模型因变量的列表如表2-28所示。
表2-28 模型因变量描述

具体的,我们将消费者下一阶段(2011年7月1日—2011年9月30日)的评论流失行为用Churn′it表示,是一个虚拟变量。若用户i在t时间内产生了购买行为,则定义Churn′it的值为0;否则即认为产生了评论流失。
2)模型自变量
我们将实证模型中所用到的自变量划分为消费者当前期的评论行为和购买行为两个维度。模型自变量的列表如表2-29所示。
表2-29 模型自变量描述

同样地,自变量计数周期为2011年1月1日至2011年6月30日,由大众点评网提供。本文认为消费者的评论行为包括10个变量,分别为累积评论贡献值(用Cmit-1表示)、评论最高贡献值(用Cm_topit-1表示)、评论次数(用Cfit-1表示)、平均(用Mean_Scoreit-1)打分、最后评论时间(用C_lasttimeit-1表示)、第一次评论时间(用C_firsttimeit-1表示)、工作时间段评论次数(用C_ worktimeit-1表示)、凌晨评论次数(用C_midnightit-1表示)、白天评论次数(用C_dayit-1表示)和晚上评论次数(用C_nightit-1表示)。
消费者的购买行为包括7个变量,分别为累计消费金额(用Cmit-1表示)、购买最大金额(用Cm_topit-1表示)、购买次数(用Cfit-1表示)、工作时间段购买次数(用C_worktimeit-1表示)、凌晨购买次数(用C_midnightit-1表示)、白天购买次数(用C_dayit-1表示)和晚上购买次数(用C_nightit-1表示)。
3)模型控制变量
实证模型中的控制变量为消费者的自身因素,模型自变量的列表如表2-30所示。
根据大众点评网人口统计特征因素的提供情况,认为消费者自身因素包括三个变量,即消费者的性别(用Genderi表示)、年龄(用Agei表示)以及对网站的整体贡献值(用Contributioni表示)。其中,用户年龄(Agei)及用户性别(Genderi)两个变量的值皆来源于用户在大众点评网上所填写的个人资料;网站的整体贡献值(Contributioni)来源于大众点评网对用户行为的评分值。
表2-30 模型控制变量描述

4.流失预测模型——未考虑购买行为模型构建
我们首先提出了仅考虑消费者自身因素和消费者评论行为的评论流失预测模型。通过上述分析确定出消费者的性别、年龄、消费者贡献值、累积评论贡献值、评论最高贡献值、评论次数、最后一次评论时间、第一次评论时间、工作时间段评论次数、白天评论次数、晚上评论次数以及凌晨评论次数这13个指标作为后续研究的待选解释变量。

5.购买流失预测模型——综合考虑评论及购买行为模型构建
本文接下来引入消费者的购买行为,提出综合考虑消费者自身因素、消费者购买行为以及消费者评论行为的评论流失预测模型。在式(2-46)的基础上,进一步提出了包括累计消费金额、购买最大金额、购买次数、工作时间段购买次数、白天购买次数、晚上购买次数、凌晨购买次数共计20个指标作为解释变量的综合模型,具体模型如式(2-47)所示。

6.模型分析结果
1)模型检验
在构建评论流失预测模型之前,需要对各变量间进行多重共线性检验:若VIF≤10,则说明变量间不存在共线性。通过表2-31可以发现评论次数、白天评论次数、晚上评论次数、凌晨评论次数、工作时间段评论次数、累计购买次数、白天购买次数、工作时间段购买次数、累积评论次数和凌晨购买次数的VIF均大于10,变量间存在共线性。因此采用同样的方法,利用逐步回归进行变量处理与筛选,消除变量间的共线性,同时得到影响消费者评论流失的核心变量,具体结果如表2-31所示。
表2-31 VIF因子分析

2)结果分析
(1)训练集结果分析
与之前的思路相同,本章也将数据集按8∶2的比例对总体样本进行训练集和验证集的划分,其中训练集包括471名用户,其中评论流失的用户有278名,未流失的用户为193名;验证集包括118名用户,其中购买流失的用户有67名,未流失的用户为51名。在进行逐步回归后具体分析结果如表2-32所示。
表2-32 模型结果——训练集

注:∗p<0.1,∗∗p<0.05,∗∗∗p<0.01。
表2-32表示训练集的消费者评论行为预测Logit回归模型结果分析。其中,模型一表示式(2-46)经过逐步回归后的因素影响结果;模型二表示式(2-47)经过逐步回归后的因素影响结果。通过对模型一的结果进行分析发现当仅考虑消费者自身因素和当前期评论行为时,消费者贡献值(=-0.005)、平均评论贡献值(=0.258)、最后一次评论时间(=0.012)、第一次评论时间(=-0.009)和平均打分(=-0.188)会显著影响消费者下一阶段的评论流失情况。
其中,消费者在点评网的贡献值(θ1Contributionit-1)对于消费者的评论流失行为有显著的负向影响。这说明消费者在点评网的贡献值越大,其在下一阶段的评论流失可能性越小。同样地,消费者的第一次评论时间(μ3C_firsttimeit-1)和平均打分(μ4Mean_Scoreit-1)与其下一阶段的评论流失行为也为显著负相关。这说明,消费者第一次评论时间距分析时间点的距离越大,用户使用点评平台的时间约长,其越不容易产生评论流失行为;对于用户打分情况而言,用户对店家的平均打分值越高,代表用户对点评网店家的印象越好,越不容易产生评论流失行为。而消费者的平均评论贡献值(μ1Cm/Cfit-1)和最后一次评论时间(μ2C_lassttimeit-1)则与消费者在下一阶段的评论流失行为有显著的正向影响。其中,消费者的平均评论贡献值越大,说明其评论越详细也越全面,那么用户有可能在下一阶段不太有意愿去再次进行评论,有可能会产生评论流失行为;而对于最后一次评论时间而言,消费者的最后一次评论时间距分析时间点越近,说明其越活跃,越不容易产生评论流失行为。
通过对比模型二和模型一则发现综合考虑用户自身因素、当前期评论行为和当前消费者的购买行为时,发现除了上述评论因素会影响用户的评论流失外,购买行为同样会对消费者下一阶段的评论流失行为产生影响,即平均购买金额、最高购买金额(α2Gm_topit-1)以及夜间购买次数(α3G_nightit-1)。其中,平均购买金额与消费者下一阶段的评论流失行为呈显著正相关性。这说明,消费者当前平均购买金额越多,其下一阶段越有可能产生评论流失行为。而最高购买金额和夜间购买次数均与下一阶段的评论流失行为呈显著负相关性。
综上所述,本文最终构建了用户购买流失预测模型,具体如式(2-48)所示。

即消费者的贡献值、平均评论贡献值、最后一次评论时间、第一次评论时间、平均打分、平均购买金额、最高购买金额以及夜间购买次数会对下阶段的评论流失行为产生影响。
(2)模型预测准确度对比
在本节,同样采用预测命中率来进行模型预测准确度的对比,具体计算公式如式(2-29)所示。基于此,本文将模型一仅考虑评论和消费者自身因素的模型预测结果与模型二综合考虑三方面因素的模型预测命中率进行对比,发现对于训练集和验证集而言,模型二对评论流失行为预测和评论未流失行为的预测的命中率均有了提高,具体结果如表2-33所示。
表2-33 预测命中率对比

综上所述,通过分析可以发现消费者当前的购买行为会对该消费者下一阶段的评论行为产生影响,同时引入购买行为的用户评论流失预测命中率也有了提高。由于样本数据较小,使得预测效果的提升度并不是特别高。因此接下来采用十重交叉验证的方法来验证模型的稳定性。
3)十重交叉验证
通过十重交叉验证的方法得到求平均后整体验证集的平均误差率,具体结果如表2-34所示。
表2-34 十重交叉验证

通过表2-34所示,采用十重交叉验证方法分别对模型一和模型二训练集和验证集进行分析,得到的平均错误率均与原始错误率差距很小,说明建立的评论行为预测模型具有一定的稳定性。
2.5.2 Pareto/NBD模型预测客户评论次数
本节同样采用Pareto/NBD模型和其改进模型对客户评论次数进行预测。
1.Pareto/NBD实证研究
1)数据提取
本节数据依然来源于大众点评网的数据,重点关注2011年1月1日到同年3月31日共90天在大众点评网上存在评论行为的用户,共获得378名目标用户。选取2011年1月1日至同年6月30日共181天作为观察期,2011年7月1日至同年9月30日共92天作为验证期。针对目标用户的id,在完成对同一用户在一天内发生的多次购买行为的处理工作后,得到了1 994条(x,tx,T)的数据集,同时将目标用户初次购买的天数定为0。具体的建模过程如图2-17所示。

图2-17 样本数据提取期
样本包括以下数据。
x:表示个体用户在2011年1月1日至2011年6月30日共181天的重复评论次数。单位:次。
T:表示用户初次评论时间与观察期截止时间(2011年6月30日)的间隔。单位:天。
tx:表示在[0,T]时间段内,用户最后一次评论的时间。单位:天。
X2:表示用户在2011年7月1日至2011年9月30日重复评论的次数。单位:次。
2)结果分析
(1)模型参数预测结果
通过Matlab 7.0计算出样本的参数值α,β,γ和s如表2-35所示。
表2-35 参数估计值

通过计算,可以得到最大似然函数对数值总和LL为6 038。从参数估计结果来看,当客户处于活跃期时,意味着该网站客户的平均购买率和流失率如下。
①购买率:λ=γ/α=0.051。
②流失率:μ= s/β=0.021 4。
2.模型预测结果分析
本文在计算出(0,t]时刻内个体用户评论次数的期望值之后,在此基础上计算出观察期和验证期共273天内所有目标用户每天的累计评论次数期望值,并将结果与实际值进行比较。图2-18为所有目标用户每天的累计评论次数期望值与实际的比较结果。

图2-18 累计评论次数
图2-18上面线为实际累计评论次数,下面线为Pareto/NBD模型预测结果。从总体趋势来看,Pareto/NBD模型的整体走势与累计评论次数的走势相似,能较好地预测出实际累计评论次数的变化趋势,有较好的拟合效果。而且由图2-18可以看出,随着天数的增加,Pareto/NBD模型的预测值与实际累计评论次数值之间的差距越来越小。不足之处在于Pareto/NBD模型的预测值在前期整体低于实际累计评论次数。
本文通过活跃度计算公式,计算出每个目标消费者的活跃度后,计算出观察期内具有相同评论次数的目标用户平均活跃度,并将结果与实际情况进行比较,结果如图2-19所示。
具体来说,通过对图2-19和表2-36的分析可以发现,Pareto/NBD模型的预测结果较理想,随着用户重复评论次数的变化,Pareto/NBD模型对于用户活跃度的预测值与实际值的变化趋势基本一致,且随着用户重复评论次数的变化呈现出规律性的变化趋势,因此对于用户活跃度的Pareto/NBD模型整体预测效果较理想。

图2-19 用户活跃度
表2-36 用户活跃度预测值

在计算出评论次数的条件期望值之后,本文又在此基础上计算出建模期内具有相同评论次数的用户在验证期内评论次数的平均值,并将结果与实际值进行比较,如图2-20所示。

图2-20 评论次数的条件期望图
从图2-20和表2-37可看出,Pareto/NBD模型很好地反映了实际值的变化趋势。并且随着观察期内用户重复购买次数的不断增大,Pareto/NBD模型的预测值与实际值同时发生了上下波动情况。但是不足之处在于,由表2-37可看出,Pareto/NBD模型在观察期内重复购买次数超过11次后,其与实际情况的差距较之前评论次数的差距不断拉大,最后部分的模型预测效果要高于实际值。
表2-37 评论次数的条件期望值

通过上述结果分析发现采用Pareto/NBD模型对大众点评网用户购买行为进行预测时,对用户活跃度的预测和对消费者评论次数的条件期望的预测值均能较好地反映预测趋势,但是对于消费者每天累计评论次数的预测情况在验证期有一定差距但是在验证期的预测差距在逐渐缩小,整体而言Pareto/NBD取得了相对较好的预测效果。因此也证明了该模型在对大众点评网的用户进行评论行为预测时具有很强的适应性和可行性。但是Pareto/NBD模型仍有不足之处,具体体现在对于消费者每天累计评论次数的预测上。因此本文接下来会尝试对Pareto/NBD模型引入协变量,改进原模型。
2.5.3 Pareto/NBD改进模型
1.引入协变量
根据前文的研究结论,已经发现消费者的平均购买金额和平均评论贡献值会对消费者的评论流失行为产生影响。基于此,本节选取了目标个体用户在观察期的平均购买金额和平均评论贡献值两个变量作为预测消费者评论行为的协变量。由于它们的数值在不同用户间的差异比较大,因而本文在进行参数估计前同样使用了max-min标准化方法对平均购买金额和平均评论贡献值这两个协变量的数据进行了标准化处理,具体处理方法如式(2-12)和式(2-13)所示。
为了观察各协变量对个体用户的行为规律产生的影响,本文做了以下三组实验。
(1)假设平均购买金额对流失行为影响显著,使用平均购买金额作为流失行为的协变量,即β=β0exp(-y1tc)。
(2)假设平均评论贡献值对流失行为影响显著,使用平均评论贡献值作为流失行为的协变量,即β=β0exp(-y2tp)。
(3)假设平均购买金额和平均评论贡献值对流失行为影响显著,使用标准化后的平均购买金额和平均评论贡献值之和作为流失行为的协变量,即β=β0exp[-y2(tc+tp)]。
其中,tc和tp分别为平均购买金额和平均评论贡献值做了max-min标准化处理后的数据,y1、y2和y3分别为协变量向量的系数向量,原模型z中的参数γ和s保持不变。实验结果发现,这三组的实验结果均与原Pareto/NBD模型的预测效果相近,这说明这两个变量对评论次数预测的改进效果并不明显。接下来,将具体展示模型改进效果。
2.改进效果展示
以下实证结果列举了Pareto/NBD模型的预测结果和上述假设中引入协变量后模型的预测结果,并将其与实际值进行对比。三组假设涉及“假设平均购买金额对流失行为影响显著,使用平均购买金额作为流失行为的协变量”“假设平均评论贡献值对流失行为影响显著,使用平均评论贡献值作为流失行为的协变量”以及“假设平均购买金额和平均评论贡献值对流失行为影响显著,使用标准化后的平均购买金额和平均评论贡献值之和作为流失行为的协变量”的模型预测结果。
具体来说,图2-21为所有消费者每天累计评论次数的几组实验的预测结果。从整体趋势来看,在对所有用户每天累计评论次数进行预测时,Pareto/NBD模型及其改进模型的预测效果差别不大。这说明引入协变量的模型并未对用户每天的累计购买次数的预测效果起到比较理想的改进作用。

图2-21 累计评论次数预测结果
图2-22为各组实验改进的观察期内具有相同购买次数的用户的平均活跃度值与活跃度的经验值比较结果。由图2-22同样可以看出,引入平均评论贡献值、平均购买金额以及同时引入平均评论贡献值和平均购买金额作为流失行为的协变量与基础Pareto/NBD模型中的模型预测结果非常相似,并且都能够很好地对真实值进行拟合。

图2-22 用户活跃度
综上所述,可以看到Pareto/NBD模型已经能够很好地对消费者的评论次数进行预测,虽然通过前面的Logit分析发现“平均购买金额”和“平均评论贡献值”会对消费者的评论流失行为产生影响,但是在对Pareto/NBD模型引入协变量后并没有能够更加有效地改进其预测效果。分析其原因,这可能是由于Pareto/NBD模型已经能够较好地反映出预测效果,由于样本量较小的原因,使得引入协变量的改进模型改进效果并不明显。
本节继续从个体层面进行消费者评论行为的研究。首先采用Logit计量经济学模型综合考虑用户自身的购买行为和评论行为,研究用户自身因素、购买行为以及评论行为对消费者下一阶段评论流失行为的影响,并且发现消费者平均购买金额对下一阶段用户评论流失的影响为显著正向影响,当平均购买金额越多时,下一阶段消费者越容易产生评论流失,证明了团购平台对点评平台的影响情况,并且更加精确地对消费者的评论流失行为进行了预测;其次以Pareto/NBD模型为基础,发现Pareto/NBD对消费者的评论次数预测效果很好,证明了该模型同样适用于对消费者的评论次数预测;继而对其引入协变量,提出了改进后的Pareto/NBD模型,但发现并未明显改善预测效果。经过分析,其主要原因可能是由于本文采用的样本量较小,改进效果并不十分明显。