北理工在大數(shù)據(jù)最優(yōu)抽樣取得研究成果
發(fā)布日期:2020-06-15 供稿:數(shù)學(xué)與統(tǒng)計(jì)學(xué)院
編輯:陶思遠(yuǎn) 審核:田玉斌 閱讀次數(shù):日前,北京理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院虞俊助理教授及其合作者在統(tǒng)計(jì)學(xué)四大國際頂級(jí)期刊《Journal of the American Statistical Association》上發(fā)表了題為“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究論文。該論文針對如何從分布式存儲(chǔ)海量數(shù)據(jù)中提取有用的信息這一問題,從基于最優(yōu)試驗(yàn)設(shè)計(jì)理論的抽樣角度提出了一個(gè)快速解決方案。
隨著大數(shù)據(jù)時(shí)代的到來,人們所能獲取的數(shù)據(jù)源源不斷地以指數(shù)級(jí)的速度增加。分析這些作為信息載體的數(shù)據(jù),從中提取有用的信息,一直是統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的核心研究課題之一。對海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),通常面對兩個(gè)特別具有挑戰(zhàn)的問題,其一是數(shù)據(jù)量過大,無法將整個(gè)數(shù)據(jù)集存入一個(gè)計(jì)算機(jī)中,從而導(dǎo)致傳統(tǒng)統(tǒng)計(jì)分析算法無法直接應(yīng)用到對應(yīng)數(shù)據(jù)集;其二是盡管數(shù)據(jù)量適中,然而由于現(xiàn)有計(jì)算機(jī)的計(jì)算速度和計(jì)算能力的限制,進(jìn)行統(tǒng)計(jì)分析往往耗時(shí)很長,無法在有限的時(shí)間內(nèi)得到研究者想要的統(tǒng)計(jì)分析結(jié)果。
為了克服這兩個(gè)挑戰(zhàn)性問題,針對大數(shù)據(jù)集的統(tǒng)計(jì)分析方法大致可以分為如下兩類:第一類是并行計(jì)算方法,首先將整個(gè)大數(shù)據(jù)集分成若干個(gè)子數(shù)據(jù)集,對每個(gè)子數(shù)據(jù)集單獨(dú)計(jì)算,最后把這些子數(shù)據(jù)集的計(jì)算結(jié)果有機(jī)地結(jié)合在一起,得到整個(gè)數(shù)據(jù)集的推斷結(jié)果。第二類分析方法是子抽樣方法,從整個(gè)數(shù)據(jù)集中巧妙地抽取一組有效的子樣本,僅對子樣本進(jìn)行統(tǒng)計(jì)推斷,利用樣本代替整體的思想,通過子樣本的推斷來推斷全樣本的估計(jì)結(jié)果,從而節(jié)省計(jì)算時(shí)間。雖然大量的研究結(jié)果表明子抽樣方法能夠有效解決大數(shù)據(jù)的統(tǒng)計(jì)推斷問題,然而如何高效地選擇攜帶信息量大、能夠提高統(tǒng)計(jì)推斷準(zhǔn)確度的數(shù)據(jù)作為進(jìn)行統(tǒng)計(jì)推斷的子樣仍然是大數(shù)據(jù)分析中亟待解決的問題之一。
虞俊助理教授與合作者的上述論文,基于最優(yōu)設(shè)計(jì)的思想,對如何高效地選擇富含統(tǒng)計(jì)模型信息的數(shù)據(jù)這一問題給出了一個(gè)科學(xué)的方法。利用分布計(jì)算的優(yōu)勢,首先對存儲(chǔ)在不同計(jì)算機(jī)上的數(shù)據(jù)集分別抽取子樣,之后將每個(gè)子樣本得到的估計(jì)巧妙地融合在一起,從而形成全數(shù)據(jù)集的最優(yōu)近似估計(jì)。文章從理論和模擬兩方面證明了這一方法的科學(xué)性和可行性。
該項(xiàng)研究工作是虞俊助理教授與北京大學(xué)艾明要教授,康涅狄格大學(xué)統(tǒng)計(jì)系王海鷹助理教授等合作完成,虞俊助理教授為第一作者,本項(xiàng)工作得到北京理工大學(xué)青年教師學(xué)術(shù)啟動(dòng)計(jì)劃的資助。
論文鏈接地址:
https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1773832?journalCode=uasa20
附研究團(tuán)隊(duì)及個(gè)人簡介:
北京理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院試驗(yàn)設(shè)計(jì)團(tuán)隊(duì)積極開展國內(nèi)外合作研究和學(xué)術(shù)交流,團(tuán)隊(duì)負(fù)責(zé)人田玉斌教授以及團(tuán)隊(duì)成員孔祥順博士,王典朋博士,虞俊博士等分別與國內(nèi)外知名試驗(yàn)設(shè)計(jì)學(xué)者,如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了長期的合作關(guān)系。團(tuán)隊(duì)成員分別開展著試驗(yàn)設(shè)計(jì)理論與應(yīng)用的研究,表現(xiàn)出強(qiáng)勁的發(fā)展勢頭。
虞俊,助理教授,北理工數(shù)學(xué)與統(tǒng)計(jì)學(xué)院試驗(yàn)設(shè)計(jì)團(tuán)隊(duì)主要成員。本科畢業(yè)于南開大學(xué)、博士畢業(yè)于北京大學(xué),曾在美國佐治亞州立大學(xué)作訪問學(xué)者。主要從事試驗(yàn)設(shè)計(jì),抽樣理論以及相關(guān)的統(tǒng)計(jì)應(yīng)用研究工作。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等統(tǒng)計(jì)學(xué)權(quán)威期刊發(fā)表了多篇高水平學(xué)術(shù)論文。
分享到: