LUCIDA：如何利用多因子策略构建强大的加密资产投资组合（因子合成篇）

LUCIDA

特邀专栏作者

2024-02-06 09:00

本文約1833字，閱讀全文需要約3分鐘

本篇根据大类对因子的相关性进行检验，依据检验结果对因子做了舍弃或合成处理。

AI總結

展開

本篇根据大类对因子的相关性进行检验，依据检验结果对因子做了舍弃或合成处理。

書接上回，關於《用多因子模型建立強大的加密資產投資組合》系列文章中，我們已經發布了三篇：《理論基礎篇》、《資料預處理篇》、《因子有效性檢驗篇》。

前三篇分別解釋了多因子策略的理論與單因子測試的步驟。

一、因子相關性檢定的原因：多重共線性

我們透過單因子測試部分篩選出一批有效因子，但以上因子不能直接入庫。因子本身可依具體的經濟意義進行大類劃分，同類型的因子間存在較強的相關性，若不經相關性篩選直接入庫，根據不同因子進行多元線性回歸求預期回報率時，會出現多重共線性問題。在計量經濟學中，多重共線性是指回歸模型中的一些或全部解釋變數存在「完全」或準確的線性關係（各變數間高度相關）。

因此，有效因子篩選出後，首先需要根據大類對因子的相關性進行T 檢驗，對於相關性較高的因子，要麼捨棄顯著性較低的因子，要麼進行因子合成。

多重共線性的數學解釋如下：

會有兩種情況：

多重共線性所導致的後果：

1.完全共線性下參數估計量不存在

2.近似共線性下OLS 估計量非有效

3.參數估計量經濟意義不合理

4.變數的顯著性檢驗（t 檢驗）失去意義

5.模型的預測功能失效：透過多元線性模型擬合的預測報酬率極不準確，模型失效。

二、步驟一：同類型因子的相關性檢驗

檢驗新求出的因子與已入庫因子的相關性。通常來說，有兩類資料求相關性：

1.根據所有token 在回測期間的因子值求相關

2.根據所有token 在回測期間的因子超額報酬值求相關

我們所求的每一個因子對token 的報酬率都有一定的貢獻和解釋能力。進行相關性檢定**，是為了找出對策略效益有不同解釋和貢獻的因子，策略的最終目的是效益**。如果兩個因子對收益的刻畫是相同的，即使兩個因子值存在很大差異也無意義。因此，我們並不是想找出因子值本身差異大的因子，而是想找出因子對收益刻畫不同的因子，所以最終選擇了以因子超額報酬值求相關。

我們的策略是日頻，所以以回測區間的日期計算因子超額報酬之間的相關係數矩陣

程式求解與庫內相關最高的前n 個因子：

def get_n_max_corr(self, factors, n= 1):
factors_excess = self.get_excess_returns(factors)
save_factor_excess = self.get_excess_return(self.factor_value, self.start_date, self.end_date)
if len(factors_excess) < 1:
return factor_excess, 1.0, None
factors_excess[self.factor_name] = factor_excess['excess_return']
factors_excess = pd.concat(factors_excess, axis= 1)
factors_excess.columns = factors_excess.columns.levels[ 0 ]
# get corr matrix
factor_corr = factors_excess.corr()
factor_corr_df = factor_corr.abs().loc[self.factor_name]
max_corr_score = factor_corr_df.sort_values(ascending=False).iloc[ 1:].head(n)

return save_factor_excess, factor_corr_df, max_corr_score