存儲(chǔ)的數(shù)據(jù),首先要進(jìn)行包含完整性,是否有錯(cuò)誤等,需要進(jìn)行數(shù)據(jù)質(zhì)量的檢查,而且還會(huì)根據(jù)自身策略的運(yùn)算規(guī)則需要進(jìn)行特定數(shù)據(jù)的運(yùn)算合成,比如某個(gè)時(shí)間級(jí)別如30秒鐘,1分鐘,等等級(jí)別數(shù)據(jù)的合成。也包含某些特色數(shù)據(jù)的合成,如因子類數(shù)據(jù),
其實(shí)量化交易最難的一部分也在這里,如果你不了解就會(huì)很難,
而且,量化交易的數(shù)據(jù)使用是有兩個(gè)層面的。
一個(gè)是研究層面,
這個(gè)部分一般采用歷史行情數(shù)據(jù)就可以了,除去TICK級(jí)、秒級(jí)、分鐘、小時(shí)、日線等級(jí)別基礎(chǔ)數(shù)據(jù)之外,一些數(shù)據(jù)服務(wù)商還提供特別數(shù)據(jù),比如因子數(shù)據(jù),輿情類數(shù)據(jù)、還有一些特別用處的場(chǎng)外數(shù)據(jù)等等,還有一些盤(pán)口訂單流類型的策略需求較為特珠的歷史逐筆行情數(shù)據(jù)等等,
研究層面的數(shù)據(jù)大多可以通過(guò)一些免費(fèi)API或者向數(shù)據(jù)服務(wù)商進(jìn)行付費(fèi)獲取,我甚至有在某寶看到售賣,但不知質(zhì)量如何,想來(lái)如果僅僅是做研究之用,歷史部分的數(shù)據(jù)應(yīng)該不會(huì)差到哪里去,實(shí)在不行可以多買幾份不同服務(wù)商的數(shù)據(jù)進(jìn)行校對(duì)。
另一個(gè)是實(shí)盤(pán)層面,
這個(gè)層面的數(shù)據(jù)指的是實(shí)時(shí)行情數(shù)據(jù),包含標(biāo)的的實(shí)時(shí)價(jià)格、成交量、盤(pán)口訂單委托方向、數(shù)量等等。實(shí)盤(pán)層面的行情數(shù)據(jù)獲取,幾乎已經(jīng)被國(guó)內(nèi)有行情分發(fā)資質(zhì)的一些數(shù)據(jù)服務(wù)商給壟斷了,如WIND,通聯(lián),Choise等等。這種數(shù)據(jù)比較在乎質(zhì)量以及響應(yīng)速度,因?yàn)槟P偷淖罱K指令信號(hào)是會(huì)過(guò)由這部分?jǐn)?shù)據(jù)進(jìn)行計(jì)算判定的。所以容不得失誤。
本質(zhì)上來(lái)說(shuō),數(shù)據(jù)質(zhì)量的好壞,在于你獲取數(shù)據(jù)來(lái)源的是否更靠近交易所一手?jǐn)?shù)據(jù)來(lái)源,因?yàn)樗械臄?shù)據(jù),不論是實(shí)時(shí)行情部分還是歷史行情部分,最初都是由交易所進(jìn)行發(fā)布的,當(dāng)然一些數(shù)據(jù)服務(wù)商比較用心,將這部分?jǐn)?shù)據(jù)進(jìn)行了存儲(chǔ)加工了,在得到交易所和監(jiān)管部門(mén)授權(quán)的背景下,再進(jìn)行了售賣與行情分發(fā)。
劃重點(diǎn)講,如果你比較關(guān)注在意數(shù)據(jù)的質(zhì)量,那就應(yīng)該盡量向高一級(jí)分發(fā)資質(zhì)的數(shù)據(jù)服務(wù)商進(jìn)行購(gòu)買,如果不是挺在意,那獲取的渠道就是多種多樣了,知乎上很多的數(shù)據(jù)服務(wù)部商喜歡打廣告,有很多的傳送門(mén)的,只需要一搜便出現(xiàn)了。但不一定是你想用的,不要急著繳納他們昂貴的年費(fèi),認(rèn)真的停下來(lái)思考下,我的策略是否已經(jīng)定型了,獲取的數(shù)據(jù)層面是否還需要有大的變動(dòng),再去決定是否購(gòu)買,畢竟數(shù)萬(wàn)每年的價(jià)格,也不少。
交易所行情數(shù)據(jù)的分發(fā),也是公開(kāi)對(duì)外報(bào)價(jià)的,我記得不錯(cuò)的話,以股票行情舉例,上交所和深交所的價(jià)格,5年前大致是在100萬(wàn)/每年,不知時(shí)今的報(bào)價(jià)如何。
所以建議還是根據(jù)自身策略的需要,進(jìn)行數(shù)據(jù)的獲取收集與存儲(chǔ),
其實(shí)我們進(jìn)行量化交易,不外乎會(huì)通過(guò)兩種形式進(jìn)行研究、實(shí)盤(pán)交易。
第一種,采用三方量化平臺(tái),一般是使用三方量化平臺(tái)封裝的數(shù)據(jù)API,通過(guò)獲取數(shù)據(jù)的函數(shù)直接進(jìn)行數(shù)據(jù)的調(diào)用,當(dāng)然各個(gè)三方量化平臺(tái)的數(shù)據(jù)質(zhì)量參差不齊,推薦老牌量化平臺(tái)機(jī)構(gòu),股票可以推薦恒生,迅投系列的券商PB量化軟件。期貨可以采用文化與交易開(kāi)拓者或者金字塔之類的三方量化軟件服務(wù)商,當(dāng)然新生代的聚寬之類的web端的量化平臺(tái)也是不錯(cuò)的,
第二種,使用python語(yǔ)言環(huán)境或其它語(yǔ)言進(jìn)行開(kāi)發(fā)研究。這種的話,相對(duì)來(lái)說(shuō)就比較麻煩一些,所有的數(shù)據(jù)首先要到處尋找可用的API進(jìn)行數(shù)據(jù)的實(shí)時(shí)接收,不論是通過(guò)規(guī)范的API接口,或是通過(guò)爬蟲(chóng)(不建議)技術(shù)進(jìn)行獲取,獲取到數(shù)據(jù)的第一時(shí)間,一般都會(huì)對(duì)該部分?jǐn)?shù)據(jù)進(jìn)行格式調(diào)整或是本地化存儲(chǔ)的。
雖然之后的使用會(huì)更靈活,但無(wú)形之中會(huì)加大量化交易研究或交易環(huán)節(jié)過(guò)程中的人員以及精力支出。如果是較為高頻一點(diǎn)的策略,我建議關(guān)注的點(diǎn)首先是數(shù)據(jù)質(zhì)量上,比如精準(zhǔn)度,響應(yīng)延時(shí),其次才是策略本身的算法之類,研究的過(guò)程是有先后的。
兩種形式相比較,前者更適用于個(gè)人研究,不具備時(shí)間、精力、金錢(qián)的個(gè)人玩家,后者更適用于團(tuán)隊(duì)分工合作形式的專業(yè)機(jī)構(gòu),如果拿開(kāi)店舉例,前者類似于開(kāi)一家加盟店,優(yōu)點(diǎn)是什么基本該有東西都有人給你準(zhǔn)備好了,缺點(diǎn)就是不靈活,不生動(dòng)。后者就是個(gè)體商鋪,更煩心,但優(yōu)點(diǎn)就是更自由,更有施展你天馬行空想法的可能性。
順帶說(shuō)一句,不論哪種數(shù)據(jù)獲取形式,你扎實(shí)的程序、數(shù)據(jù)庫(kù)知識(shí),以及對(duì)金融證券交易基礎(chǔ)知識(shí)是必備的。不要想著我以前就是一程序員,立馬轉(zhuǎn)型成量化交易員是否具備這種可能性,我認(rèn)為是很難的。
最后講一下,一些其它市場(chǎng)的數(shù)據(jù)獲取,
比如美股,美股市場(chǎng)的量化交易數(shù)據(jù),其實(shí)國(guó)外放得比較開(kāi),很多數(shù)據(jù)也是免費(fèi)的,你所在的券商一般者會(huì)提供相應(yīng)的數(shù)據(jù)API,比如盈透、老虎證券這種美股券商都是有的,如果你只是用來(lái)做個(gè)研究什么的,也可以找新浪要去(新浪是初學(xué)者大多愛(ài)好在這里BA),但精細(xì)化的數(shù)據(jù)加工成本確實(shí)挺多的,一般也會(huì)收費(fèi),具體多少你可以咨詢一下你所在的券商客戶MM。
期權(quán)數(shù)據(jù),這種也是由交易所原初提供的,軟件與行情數(shù)據(jù)服務(wù)商進(jìn)行分發(fā),像上面提到的的WIND這些一定是有的,一些三方期權(quán)平臺(tái)也是有可能會(huì)打包售賣的,比如真格量化平臺(tái)。
總的來(lái)說(shuō),數(shù)據(jù)的獲取來(lái)源多種多樣,大神有實(shí)力的一般自己動(dòng)手豐衣足食,努力學(xué)習(xí)期的朋友一般喜歡借用力量,不管選擇哪種方式,都得先參考自已的量化交易策略,需要用到什么,考慮清楚后,再決定用什么,總有一款適合你。