基于机器学习视角的新老券利差分析

内容提要

随着传统的杠杆策略失效、信用策略压缩、久期策略拥挤，债券市场参与者越来越重视利差交易等更为精细化的投资策略。本文探索金融科技在债券投研领域的应用，于新老券利差分析中引入先进的数据分析和智能算法，包括函数型数据对齐、核密度估计和机器学习等。本文揭示了新老券利差倒“U”型的动态变化模式和驱动特征分布，并构建了预测未来走势的随机森林模型，为金融市场实践者提供新的分析工具和视角，为债券投研领域的数字化转型提供有力支持。

一、研究背景与目的

2022年11月，中国外汇交易中心推出债券利差交易服务，助力市场机构高效执行多券组合策略。该组合的价值波动取决于债券A与债券B之间相对价值的变化，从而有效对冲收益率曲线平行移动带来的市场风险。债券利差交易服务的推出，突破了跨交易机制“同成同撤”的瓶颈，顺应了投资交易策略的多元化需求，为投资者带来更丰富的交易选择和便利。

目前，交易中心支持新老券利差、跨品种利差、跨期限利差等品种的利差交易，累计涵盖百余个利差组合，其中新老券利差因其高成交量成为市场焦点。本研究以十年期国开债为重点，分析其新老券利差的形成和变化规律，旨在为投资策略提供理论支撑，促进债券市场效率与健康发展。

传统新老券利差研究受限于简化理论框架和传统统计方法，在处理复杂数据时解释力不足。本文通过采用函数型数据分析、核密度估计和机器学习算法，建立了一个更为精确的利差预测模型。最后，结合国开债230215和国债230026的测试结果，探讨了债券发行和市场结构变化，并展示了金融科技在新老券利差应用中的结论与启示。

二、研究方法与模型

（一）函数型数据视角下的时序规律

1. 样本选择和观测周期

样本选择方面，本文将每支十年期国开债新券和前一支次新券进行组合，新老券利差计算公式为次新券收益率减去新券收益率。样本范围覆盖2017年到2023年，以十九个样本的日频数据作为研究标的。为排除假期扰动，数据选择交易所交易日，数据来源为Wind资讯。观测周期方面，本文观测每个样本中的新券从债券新发行到变为次新券，再到变为老券的整个过程。

2. 分析方法：函数型数据分析

本文采用的函数型数据分析（FDA）方法在时序分析中相对较新且日趋重要，主要用于处理时间序列数据中的复杂模式。传统的时序分析方法通常假设数据是离散的，而FDA将整个时间序列视为一个连续的函数，允许研究者分析时间序列的整体形状和趋势，而不仅仅是单个时间点的值。

3. 参数调整及弹性对齐

图1左上展示了2017年以来新老券利差时序情况的传统描述。首先，本文对样本的观测周期进行归一化处理，以提取数据的内在结构（图1右上）。其次，本文使用局部回归方法对样本进行平滑处理，在减少数据噪声的同时能够适应数据的局部变化（图1左下）。最后，本文采用Fisher-Rao度量下的函数型数据弹性对齐方法，通过仿射等弹性变换将样本函数对齐，以便它们的关键特性可以在相同的自变量值上出现（图1右下）。

图1 函数型对齐过程

4. 特性提取

对齐后的样本图形具有两个特性：

第一，曲线整体呈倒“U”型：这意味着新老券利差在新券发行后逐步走阔，于某个时间点达到了最大值，然后随着时间的推移逐渐收窄，这种模式符合市场对新老券利差的普遍认知。

第二，斜向上的“W”型：未被广泛注意到的是，在倒“U”型曲线的上升阶段，呈现一个斜向上的“W”型。这意味着新券发行初期，市场就给予新老券利差较高的溢价预期，而后在利差走阔的趋势中会出现剧烈的调整和波动。

为了深入理解十年期国开债新老券利差呈现的倒“U”型走势及其波动背后的驱动因素，本文采用核密度估计方法对相关数据进行了分析。

（二）核密度估计视角下的数据特性

1. 样本选择及观测周期

本文通过对2017年至2023年间十年期国开债的增发情况进行汇总分析，观察到自2020年起，十年期国开债的增发次数有所减少，同时每次增发的平均量却呈现出增加的趋势，表明发行规律在2020年后发生了显著的变化。鉴于这一变化，本文选取2020年至2023年的十年期国开债及新老券利差日频数据作为研究样本，以便提取国开债最新的发行规律和市场行为。

2. 因子选择

十年期国开债的数据可依据影响因素划分为两大类别：发行因子和市场因子。

发行因子涵盖了与债券发行机制直接相关的多个维度，国开债采用续发行机制，对已上市的单期债券进行增量发行，提升同一期债券的余量。本文对以下四个关键的发行因子进行统计：债券的增发时间间隔、增发次数、增发均量、债券余额。其中，当观测时点位于债券停止增发后，债券余额即为总发行规模。

市场因子是指市场上的交易行为和市场参与度指标，涵盖交易数据和时间跨度数据。本文对以下四个关键的市场因子进行统计：活跃券成交量、活跃券换手率、发行-切券时间间隔、发行-利差达峰时间间隔。其中切券指新券成交量首次超过次新券的时点（剔除上市日），利差达峰指新老券利差触及最大值的时点。

3. 分析方法：核密度估计

本文采用核密度估计方法对样本数据特性进行提取。核密度估计是一种估计概率密度函数的非参数方法，在数据科学和机器学习等领域有广泛的应用。本文对样本数据绘制了核密度曲线，横坐标为因子数据，纵坐标表示在给定横坐标处的概率密度估计值，又称核密度值。

4. 特性提取与解释

本文绘制了样本发行因子的核密度函数图像（图2）。核密度曲线的整体形态反映了数据的分布模式。根据图像分析，本文所研究的四个发行因子均呈现出显著的集中趋势，表明发行过程存在较为稳定的规律性。具体来说，增发时间间隔的核密度峰值出现在7天，增发次数集中在14次左右，增发均量的集中区间在170亿至200亿元，债券余额的集中区域位于2400亿至2700亿元。

新老券利差的时序变化受增发规律的显著影响，新券增发增加了市场深度和交易便利性，增强了其流动性，导致新老券利差扩大。下一支新券发行时，投资者偏好转移，使得原有债券的利差从高点收窄，形成特征性的倒“U”型走势。

图2 发行因子核密度估计

图3展示了本文对样本市场因子的核密度估计结果。活跃券成交量和活跃券换手率呈现出三峰分布，表明数据集中存在三个显著的子群体，每个峰值象征一个特定的交易活跃阶段。三峰从左到右依次对应倒“U”型时序图的底部端点、两侧曲线、顶点。

发行至切券的时间间隔聚集在两个月左右，陡峭的曲线表明数据点在该区域更加集中；相对而言，发行至达峰的时间间隔曲线更为平缓，意味着数据点分布较为分散。切券时刻标志着新券的成交量开始超过次新券，达峰则代表新老券利差的极值点，两者时序规律的不一致性揭示了成交量与利差之间并非简单的线性关系。它们之间的相互作用呈现出一种复杂的动态，这种动态在利差达到峰值的过程中形成了一种斜向上的“W”型模式。

图3 市场因子核密度估计

如前文所述，尽管新老券利差的时序在函数型对齐处理后存在相似的走势，但其多维影响因素在时间和绝对值两个方面都呈现出复杂的非线性动态，直接使用回归分析不足以捕捉这些动态特征。本文将上述八个关键因子纳入模型，采用先进的机器学习技术来预测新老券利差的未来走势。

（三）机器学习视角下的策略构建

1. 任务构建：区间识别

由于新老券利差与关键因子具有复杂的非线性关系，直接预测日度的利差值可能受到分布中的多模态、偏态的影响。本文通过核密度估计，对2020年以来新老券利差数据进行划分，确定利差数据的20%、40%、60%和80%分位数，将利差数据划分为5个区间。由此，将预测任务简化为识别次日利差所属的区间，这样对于数据中的小幅度波动和噪声具有更好的稳健性。

2. 样本选择及划分

本文聚焦于2020年至2023年间的债券市场，以其间发行的十二个十年期国开债利差组合作为研究样本，每个样本涵盖十年期国开债新券、次新券以及利差日频数据。本文采用随机抽样方法，从样本集中随机选择两个样本作为测试集，用以检测模型的性能和泛化能力；剩余十个样本则被纳入训练集，用于模型的学习和参数调优。

3. 特征选择

特征工程，是机器学习中一种提升模型性能和解释力的有效手段。通过对上文中的影响因子进行一系列处理，可以生成上千个衍生特征。这些衍生特征作为模型的输入，有助于捕捉数据中更复杂的模式和关系。然而，为了保持模型的可解释性和避免过度拟合，本文仅使用影响因子对应的原始特征及其比值、前五日均值作为模型输入（表1）。

表1 模型输入特征明细

4. 模型训练：随机森林

本文使用随机森林算法来预测次日利差的所属区间，随机森林作为机器学习中的一种集成学习方法，特别使用于处理分类和回归任务。模型训练通过自助采样和随机构建决策树，集成成随机森林模型，并对新数据进行预测和超参数调优。

5. 模型验证与评估

使用训练好的模型对测试集中的样本进行预测，得到每个样本的预测类别，根据模型的预测结果和测试集的真实标签，构建混淆矩阵。本文也采用了其他集成学习方法进行训练-测试，包括XGBoost、LightGBM、CatBoost，构建流程与随机森林类似，不在此展开。表2为使用上述四种模型预测的结果。

表2 四种集成学习方法测试结果

从结果来看，随机森林在本次预测任务中表现最优，能够有效地平衡对正类样本识别的准确性和覆盖率，提供了一个相对均衡的预测表现；其他三种方式结果相近表现不一。所有模型的预测性能仍有提升空间，这也是前文在特征参数选择时为了保持模型的简洁性和避免过度拟合所带来的性能结果牺牲。

三、结果与讨论

2023年第四季度，债券230215的发行模式改变导致新老券利差的常规动态被打破，本文采用核密度估计、KS统计量和稳健马氏距离方法来详细分析其特征差异。图4中，230215的特征值在核密度估计中显著异常，与2020年以来的样本总体分布相比，其特征值明显超出总体对应箱体的上边缘，表明其在多维特征上与样本总体存在显著差异。

图4 230215核密度估计及稳健马氏距离结果

2023年年底，十年期国债的成交量超越国开债，成为市场首位。本文使用上文训练后的随机森林模型测试230215和230026两支债券，测试结果准确度分别为62.18%和64.41%，略低于测试集结果。其中，230215的异质性已经阐述；230026代表的是十年期国债，其特征与用于模型训练的国开债数据集存在多项差异。当十年期国开债特征规律恢复，预测准确性将进一步提升。

本文结合金融科技手段，提高了新老券利差波动预测的精确度，并通过机器学习模型自动化构建特征筛选和模式识别过程，这些技术的应用预示着债券投研工作向数字化转型深入发展。

作者：陈彦如，诚通证券股份有限公司证券投资部；施昊晟，中国人民大学统计与大数据研究院