作者:Chris St. Jeor

在吃了一顿丰硕的外卖之后,你心不在焉地打开免费赠予的饼干盒。
瞥了一眼里面的祝福卡,上面写道:\公众祝你梦想会成真。
\"大众你笑着扔掉那张小纸片,然后把饼干塞进嘴里。
作为一个聪明理智的人,你知道这种梦想是很难实现的,由于没有人可以预测未来。
但是,这种想法可能并不总是精确的。
有一种方法可以非常准确地预测未来:韶光序列建模。

韶光序列建模可能无法见告你什么时候知足自己对生活的热爱,或者你是否该当戴着蓝色或赤色领带去上班,但它非常善于利用历史数据来识别现有模式,并将其用于预测将来会发生什么。
与大多数高等剖析办理方案不同,韶光序列建模是一种低本钱办理方案,可供应强大的洞察力。

以下将先容构建质量韶光序列模型的三个基本步骤:使数据平稳,选择精确的模型,评估模型的准确性。
文中的示例采取了一家大型汽车营销公司的历史页面浏览数据。

构建质量时间序列模型的3个基本步骤你get了么

步骤1:使数据平稳

韶光序列涉及利用以等间隔的韶光增量(分钟、小时、天、周等)索引的数据。
由于韶光序列数据的离散性子,许多韶光序列数据集具有内置于数据中的时令性和/或趋势元素。
韶光序列建模的第一步是考虑现有时令(固定时间段内的重复模式)和/或趋势(数据中的向上或向下移动)。
考虑这些嵌入式模式,我们称之为使数据固定不变。
趋势和时令性数据的例子可以不才面的图1和图2中看到。

图1向上趋势数据的示例

图2时令性数据示例

什么是平稳性?

正如我们之条件到的,韶光序列建模的第一个步骤是肃清数据中存在的趋势或时令的影响,使其平稳。
我们一贯在谈论平稳性这个术语,但它到底意味着什么?

平稳序列是指序列的均匀值不再是韶光函数的序列。
对付趋势数据,随着韶光的增加,序列的均匀值或者随韶光增加或者减少(想想房价随韶光的稳定增长)。
对付时令性数据,该序列的均匀值随时令而颠簸(例如每24小时温度的升高和降落)。

如何实现平稳性?

有两种方法可用于实现平稳性、差异数据或线性回归。
为了有所差异,你可以打算连续不雅观测值之间的差异。
要利用线性回归,你须要在模型中包含时令性元素的二元指示符变量。
在我们决定运用哪种方法之前,来探索一下数据。
我们利用SAS Visual Analytics绘制了历史逐日页面视图。

图3 原始页面视图的韶光序列图

最初的模型彷佛每七天重复一次,表明每周一个时令。
随着韶光的推移,页面浏览量的长期增长表明存在略微上升的趋势。
随着数据的一样平常观点,我们然后运用了平稳性的统计测试,即Augmented Dickey-Fuller(ADF)测试。
ADF测试是平稳性的单位根测试。
我们不会在这里详细先容,但是单位根表示系列是否是非平稳的,因此我们利用此测试来确定处理趋势或时令(差异或回归)的适当方法。
基于上述数据的ADF测试,我们通过对一周中的虚拟变量进行回归来肃清七天的时令,并通过对数据进行差分来肃清趋势。
得到的平稳性数据可以不才图中看到。

图4 删除时令和趋势后的平衡数据

步骤2:构建韶光序列模型

现在数据是平稳的,韶光序列建模的第二个步骤是建立一个基准水平预测。
我们还该当把稳的是,大多数基本级别预测不须要使数据平稳的第一步。
这仅适用于ARIMA建模等更高等的模型,我们将对此进行谈论。

建立基准水平预测

韶光序列模型有几种类型。
为了构建能够准确预测未来页面视图的模型(或者你对预测感兴趣的任何内容),必须决定适宜你的数据的模型类型。

最大略的选择是假设y的未来值(你对预测感兴趣的变量)即是y的最新值。
这被认为是最基本的,或\"大众天真模式\"大众,最近的不雅观察结果是第二天最有可能的结果。

第二种模型是均匀模型。
在该模型中,数据集中的所有不雅观察值都具有相同的权重。
y的未来预测打算为不雅观测数据的均匀值。
如果数据是水平的,则天生的预测可能非常准确,但如果数据趋势或具有时令性身分,则会供应非常差的预测。
利用均匀模型的页面查看数据的预测值可以不才面看到。

图5均匀模型预测

如果数据具有时令性或趋势元素,则基准级模型的更好选择是实现指数平滑模型(ESM)。
指数平滑模型(ESM)在上述天真模型(naïve model)模型和均匀模型之间找到了一种媒介,个中最近的不雅观察被授予了最大的权重,并且所有先前不雅观察的权重以指数办法减少到过去。
ESM还许可将时令性和/或趋势组件合并到模型中。
下表供应了初始权重为0.7的示例,其以0.3的速率指数地低落。

表1过去不雅观察Y的指数减小效应的例子

可以在韶光序列预测中实现各种类型的ESM。
利用的空想模型取决于你拥有的数据类型。
下表根据数据中趋势和时令的组合,供应了利用何种类型ESM的快速指南。

表2 模型选择表

由于七天的强劲时令和数据的上升趋势,我们选择一个附加的冬季ESM作为新的基准水平模型。
所产生的预测确实可以连续保持小幅上升趋势,并捕捉一周的时令。
但是,数据中还有更多可以删除的模型。

图6 附加的Winters ESM预测

ARIMA建模

在确定最能反响数据趋势和时令的模型后,你终极会得到足够的信息来天生得当的预测,如图6所示。
然而,这些模型仍旧受到限定,由于它们没有考虑到感兴趣的变量在先前的韶光段内与其自身的干系性。
我们将这种干系性称为自干系,这在韶光序列数据中很常见。
如果数据具有自干系性(如我们所做的那样),那么可以进行额外的建模以进一步改进基线预测。

为了捕捉韶光序列模型中自干系的影响,有必要实现自回归集成移动均匀(或ARIMA)模型。
ARIMA模型包括考虑时令和趋势的参数(比如利用一周中的虚拟变量和差异),但大概可包含自回归和/或移动均匀项以处理数据中嵌入的自干系。
通过利用适当的ARIMA模型,我们可以进一步提高页面视图预测的准确性,如下面的图所示。

图7时令性ARIMA模型预测

步骤3:评估模型的准确性

虽然你可以看到每个模型的精度得到提高,但直不雅观地识别哪个模型具有最佳精度并不总是可靠的。
打算MAPE(均匀绝对百分偏差)是一种快速简便的方法来比较所提出的模型的整体预测准确性,即MAPE越低,预测准确度越高。
比较前面谈论的每个模型的MAPE,很随意马虎看出时令性ARIMA模型供应了最佳的预测精度。
请把稳,还有其他几种类型的比较统计信息可用于模型比较。

表3模型缺点率比较概要

总之,构建强大的韶光序列预测模型的技巧是尽可能多地去除噪声(趋势、时令和自干系),以便数据中唯一未打算的剩余移动是纯随机性。
对付我们的数据,我们创造具有一周中某一天的回归变量的时令性ARIMA模型供应了最准确的预测。
与上述天真模型、均匀模型和指数平滑模型比较,ARIMA模型预测更准确。

你可以利用多种类型的韶光序列模型来帮助预测从页面浏览到能源发卖的任何事情。
准确预测你感兴趣的变量的关键是首先理解你的数据,然后运用最能知足你的数据需求的模型。