金融资产配置的关键问题是资产的价格,资产定价是现代金融学的核心内容,揭示资产定价规律一直是金融研究热点 之一.文中回顾了机器学习在资产定价领域使用的方法与研究进展,将机器学习资产定价的方法分类为基于特征处理的机器 学习方法与端到端处理的深度学习方法;围绕当前机器学习资产定价遇到的主要问题,比较了不同算法在原理和应用场景方面 的区别;指出了两类机器学习方法的适用性与局限性;讨论了机器学习资产定价未来可能的研究趋势.
资产定价指在不确定条件下对未来资产的价格或者价值 进行重估.本文所指资产为金融工具或某类证券,而价格指 反映了各种影响因素(如基本面、风险和情绪等),由市场需求 与供给共同决定的价格.已有众多学者从不同角度研究该类 资产定价的规律,如随机漫步理论、有效市场假说及行为金融 学等.随机漫步理论指市场对随机事件的反应具有布朗运动 随机性,该理论认为价格不具有可预测性,把预测股票走势认 定为“傻瓜的游戏”;有效市场假说将市场分为弱型有效市场、 半强型有效市场和强型有效市场,该理论认为股票价格能完 全反映所有关于该资产的有效信息,然而随着反转效应、动量 效应以及市值效应被相继发现,有效市场假说理论的有效性 较低[1];行为金融学则认为股价不仅受企业的内在价值影响, 也受投资者个体行为、群体主体行为的影响.
金融市场是十分复杂且不断变化发展的系统,股票市场 的运行规律一直受到高度关注[2],分析方法主要包括基本面 分析和技术分析.众多方法分析了对股市有影响的因子,从 而产生了因子动物园的说法[3].这些方法包括简单的线性回 归和非线性拟合、传统方法和机器学习等[2,4G8].一方面,随着 数据的爆发,金融市场包含大量的噪声及不确定性因素,当因 子特征维度变大时,非线性的考虑使得预测函数形式的搜索 复杂度急剧增加,因此传统计量方法和线性方法不适用于分 析复杂、高维且具有噪声的金融市场数据序列[9];另一方面, 机器学习在海量数据的处理与分析上 取 得 了 重 要 突 破,已 经被广泛应用于 计 算 机、生 物、医 疗、传 媒 和 金 融 等 领 域. 其中,使用机器学习进行资产定价的相 关 研 究 具 有 算 法 效 果好、适用性强、易于处理大数据的特点,带 来 了 新 的 解 决 思路.
相比传统计量与统计模型资产定价分析方法,机器学习的优势主要体现在以下几个方面.1)机器学习利用端到端的 处理方式,取消了复杂的经济金融学原理知识与模型设定,具 备从历史数据中学习经验知识与特征的能力,并基于此预测 资产的未来价格.2)机器学习算法具有天然的处理非结构化 数据的能力,能抽取深层次的潜在特征,其取消了传统计量方 法中假定数据特征关系与协方差矩阵等的计算,能更加全面 地描述金融规律,是对结构化数据分析的重要补充.3)金融 时序数据具有非线性、非平衡性、高维度特性和高噪声性质等 特点,传统计量模型的研究范式难以取得进一步的突破,而机 器学习并未对模型函数形式做出严格的假定,取消了金融市 场的变量概率统计分布等假设,更为简便且更具优势.机器 学习方法不仅能有效处理大量金融数据,更是一种新的思维 研究模式.
从数学的角度来看,机器学习表现为一种变量空间的映 射关系,其使学习到的函数能较好地表征原有数据规律,最大 化逼近真实函数曲线.传统的计量资产定价研究主要关注市 场规律研究,而机器学习主要关注数据处理与算法本身的改 进、特征深层次提取和特征相互关系研究等,因此本文重点从 技术角度综述资产定价,为从事资产定价的研究人员提供技 术方面的借鉴.本文主要从基于特征处理的机器学习资产定 价方法与基于端到端的深度学习资产定价方法两个方面进行 了介绍,回顾了机器学习在资产定价领域已有的方法与研究 进展,讨论了当前机器学习资产定价方法遇到的主要问题,指出了不同算法应用场景的区别,分析了不同算法的原理、优 势与劣势,并对机器学习金融资产定价问题进行了展望,最后 总结全文.