请在Chrome、Firefox等现代浏览器浏览本站。如果需要合作请 点击 加我 QQ 说你的需求。

沪深300指数的特征工程和聚类分析

八卦 admin

The algorithms we used are very standard for Kagglers. […] We spent most of our efforts in feature engineering. [...] We were also very careful to discard features likely to expose us to the risk of over-fitting our model. —?Xavier Cono

  The algorithms we used are very standard for Kagglers. […] We

  spent most of our efforts in feature engineering. [...] We were

  also very careful to discard features likely to expose us to the

  risk of over-fitting our model.

  —?Xavier Conort, "Q&A with Xavier

  Conort"

  “Coming up with features is difficult, time-consuming, requires

  expert knowledge. "Applied machine learning" is basically feature

  engineering.”

  —Andrew Ng, Machine Learning and AI via Brain

  simulations

  研究概述

  在机器学习应用中,选择数据的特征维度对于分析结果的优劣至关重要。本文利用米筐科技(RiceQuant)策略研究平台提供的数据,基于《WorldQuant

  Formulaic 101 Alphas》研究报告中给出的基础变量和变量变换规则,构建了五个新的特征维度对沪深300

  指数的收益率进行建模分析。我们提出第 t-1 个交易日的特征和第 t

  个交易日的收益率的相关系数,可以作为新特征维度的筛选依据。对K-平均聚类分析的结果进行收益率的均值和历史波动率的估计,证明得到的聚类明显对应不同的收益率分布。依据聚类的结果,我们提出了一个基准择时投资策略,并对其累积收益率曲线进行了分析。研究的详细的代码实现请参看RiceQuant社区

  1 背景介绍

  1.1 特征工程 (feature

  engineering)

  在日常的数据分析中,我们会把数据整理成(观测值,特征维度)的两维数据列表的形式。例如,对于一个人数为50的班级,我们可以从 1

  到 50 对学生进行编号,并选定姓名,性别,身高,体重,成绩 5 个维度作为分析的特征维度。此时我们的得到的就是一个 50 乘 5

  的数据列表(dataframe)。

  在一些问题的分析上,对原特征维度进行变换所产生的新特征维度,会增强模型的解释力(explanatory

  power)。例如,如果我们感兴趣的问题是以上班级学生的健康状况,我们可以通过身高和体重计算学生的的BMI(body mass

  index)值:

  沪深300指数的特征工程和聚类分析

  其中 w 为体重(千克),h 为身高(米)。通常认为 BMI 在18.5~25之间为合理体重。在这里,BMI

  值就是对身高和体重两个维度的组合变换。这种对原特征维度进行变换,来寻找新特征维度的做法,在机器学习中称为特征工程(feature

  engineering)。知名的国际数据挖掘比赛 Kaggle 的首席数据科学家 Xavier Conort

喜欢 (0) or 分享 (0)