12月9-10日,由全國(guó)工商聯(lián)環(huán)境商會(huì)主辦,以“學(xué)習(xí)貫徹十九大精神:鍛造產(chǎn)業(yè)利劍 護(hù)衛(wèi)美麗中國(guó)”為主題的“2017中國(guó)環(huán)保上市公司峰會(huì)”在廣東肇慶召開。
中科院高性能計(jì)算機(jī)研究中心主任、博導(dǎo)譚光明在峰會(huì)上表示,人工智能成為經(jīng)濟(jì)發(fā)展的新引擎,還給社會(huì)建設(shè)帶來新機(jī)遇。在技術(shù)層面也是國(guó)際社會(huì)各個(gè)國(guó)家科研機(jī)構(gòu)競(jìng)爭(zhēng)的高端技術(shù)。
中科院高性能計(jì)算機(jī)研究中心主任、博導(dǎo) 譚光明
以下是演講實(shí)錄:
最近在環(huán)保應(yīng)用領(lǐng)域做了一點(diǎn)事情,霧霾檢測(cè)方向做了一些應(yīng)用,一些算法研究,跟大家分享一下,后續(xù)還有很多事情需要往前推進(jìn)。
人工智能已經(jīng)成為國(guó)家發(fā)展戰(zhàn)略的一部分,美國(guó)、歐洲、日本等也發(fā)展迅速。這些數(shù)據(jù)能夠說明問題,像各領(lǐng)域人工智能公司的創(chuàng)建,如雨后春筍般出現(xiàn)。人工智能成為經(jīng)濟(jì)發(fā)展的新引擎,還有給社會(huì)建設(shè)帶來新機(jī)遇。在技術(shù)層面也是國(guó)際社會(huì)各個(gè)國(guó)家科研機(jī)構(gòu)競(jìng)爭(zhēng)的高端技術(shù)。
人工智能技術(shù)可以分類,引用UCLA朱松純的分類,歸納為六個(gè):
①機(jī)器學(xué)習(xí)(各種統(tǒng)計(jì)的建模、分析工具和計(jì)算的方法)
②計(jì)算機(jī)視覺(暫且把模式識(shí)別,圖像處理等問題歸入其中)
③認(rèn)知與推理(包含各種物理和社會(huì)常識(shí))
④機(jī)器人學(xué)(機(jī)械、控制、設(shè)計(jì)、運(yùn)動(dòng)規(guī)劃、任務(wù)規(guī)劃等),像近期波士頓動(dòng)力公司做了機(jī)器人后空翻的演示。
⑤博弈與倫理(多代理人agents的交互、對(duì)抗與合作,機(jī)器人與社會(huì)融合等議題)。
⑥自然語言處理(暫且把語音識(shí)別、合成歸入其中,包括對(duì)話)。
把近幾年的大事件,包括自動(dòng)駕駛,把這些做一些分類,跟人工智能的深度學(xué)習(xí)技術(shù),包括知識(shí)圖譜、深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí),這些在行業(yè)應(yīng)用中跟行業(yè)技術(shù)配合使用。今天提到人工智能就是深度學(xué)習(xí),其實(shí)這只是人工智能大領(lǐng)域里面很小的一塊,事實(shí)上還有早期機(jī)器學(xué)習(xí)相關(guān)算法的研究,發(fā)展到今天,深度學(xué)習(xí)的技術(shù)已經(jīng)把很多技術(shù)做了替代,變得更加前沿的一個(gè)方法。
人工智能的三次浪潮與深度學(xué)習(xí)算法有比較好的契合。1958、1982、1986年分別是人工智能興起的時(shí)候。李國(guó)杰院士說過:“人工智能已經(jīng)炒過幾回了,經(jīng)歷了幾個(gè)夏天和冬天,忽冷忽熱;現(xiàn)在終于到了秋天了,是收獲的季節(jié)了。”
這次人工智能浪潮的興起,毫無疑問得益于深度學(xué)習(xí)技術(shù)的發(fā)展和興起。深度學(xué)習(xí)技術(shù)發(fā)展歷程坎坷。20年前,Hinton提出了Neural Network,沒有得到熱門發(fā)展。NN逐漸冷落,SVM和Boosting等不斷興起……Hinton于2006年在《科學(xué)》上發(fā)表文章,首次提出DL。熱點(diǎn)的興起也離不開背后技術(shù)的發(fā)展。一方面得益于計(jì)算技術(shù)的發(fā)展和推動(dòng),還有就是大數(shù)據(jù)的發(fā)展,兩者結(jié)合使DL深度學(xué)習(xí)方法能夠發(fā)揮更有效的作用。深度學(xué)習(xí)的基本思想就是構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。
深度學(xué)習(xí)模型,層次很多,通常有5層、6層,甚至10多層,上百層神經(jīng)網(wǎng)絡(luò),對(duì)于技術(shù)能力的需求越來越大。在高度發(fā)展空間,深度學(xué)習(xí)類型有很多。針對(duì)不同領(lǐng)域,圖像、文本、語音識(shí)別等等,在實(shí)際應(yīng)用中常常都混合著使用,出現(xiàn)很多靈活的組合方式。根據(jù)實(shí)際實(shí)用問題,選擇合適的網(wǎng)絡(luò)。像很多寬帶一樣,google tensorflow,Caffe以及MX.NET等深度學(xué)習(xí)的框架。很多大公司或創(chuàng)業(yè)公司都基于這些框架開發(fā)自己的產(chǎn)品,做自己的研究。這些框架有不同的優(yōu)點(diǎn)和缺點(diǎn)。
這些缺點(diǎn)和深度學(xué)習(xí)的模型是一樣的,根據(jù)實(shí)際問題選擇更合適的框架和模型。做個(gè)簡(jiǎn)單總結(jié),Caffe是最早的深度學(xué)習(xí)框架,科研應(yīng)用的綜合性能好,但主要局限于CNN。MX Net更加注重高效,文檔詳細(xì),上手很容易,運(yùn)用也靈活。 Google強(qiáng)力推出的Tensor Flow,很多人跟隨這個(gè)框架使用,功能很齊全,能夠搭建的網(wǎng)絡(luò)種類更豐富,但綜合性能比別的開源框架要差一些。但在某些階段也不太注重性能。一個(gè)有效的解決途徑是針對(duì)具體應(yīng)用設(shè)計(jì)混合型學(xué)習(xí)框架。
但是目前存在很多的問題,可以通過三個(gè)方面來闡述。
第一,產(chǎn)業(yè)鏈。產(chǎn)業(yè)鏈不完整,缺少從國(guó)產(chǎn)芯片、平臺(tái)、應(yīng)用軟件的完整產(chǎn)業(yè)鏈。生態(tài)圈不豐富:缺乏CNN、RNN等多種深度學(xué)習(xí)算法訓(xùn)練庫。
第二,平臺(tái)。缺少對(duì)國(guó)內(nèi)處理器、DCU及其他國(guó)產(chǎn)加速器的開源服務(wù)平臺(tái)。像跟曙光合作的DCU、寒武紀(jì),都沒有一整套開源作為支撐。缺乏覆蓋科學(xué)研究、經(jīng)濟(jì)民生等大規(guī)模深度學(xué)習(xí)訓(xùn)練的數(shù)據(jù)資源?,F(xiàn)在很多信息不共享,比如醫(yī)院、政府資源,數(shù)據(jù)看不到,平臺(tái)做的再好也沒有意義。
第三,應(yīng)用。頂級(jí)計(jì)算、國(guó)產(chǎn)處理器與深度學(xué)習(xí)應(yīng)用結(jié)合不足。深度學(xué)習(xí)應(yīng)用開發(fā)和使用門檻高、代價(jià)大、效率低、周期長(zhǎng)。
針對(duì)這些問題,希望能夠結(jié)合以前在HTC做了一些技術(shù),構(gòu)建AI創(chuàng)新計(jì)算平臺(tái),從云計(jì)算、大數(shù)據(jù)、高性能計(jì)算這三個(gè)層面創(chuàng)造高效、靈活部署的平臺(tái),幫助用戶快速使用AI的平臺(tái)。我們希望構(gòu)建一個(gè)面向人工智能應(yīng)用的開源平臺(tái)。
這個(gè)平臺(tái)是從頂層到上層,就是SAAS、PAAS、IAAS,一直做到頂層應(yīng)用產(chǎn)品。高性能所更多是做底層基礎(chǔ)平臺(tái)建設(shè),最底層的IAAS,構(gòu)建一個(gè)統(tǒng)一的開發(fā)環(huán)境,幫助存儲(chǔ)分布式海量數(shù)據(jù),以及跟上層資源的調(diào)度、算法的聯(lián)系,還有一些訓(xùn)練服務(wù)的標(biāo)注工具,再上向,就是面向在線服務(wù)的軟件開發(fā)服務(wù)和標(biāo)準(zhǔn)接口,再往上就是面向國(guó)內(nèi)行業(yè)用戶,構(gòu)建不同行業(yè)的應(yīng)用場(chǎng)景,包括圖像識(shí)別、視頻處理、語音識(shí)別等等。在每個(gè)層面都有重點(diǎn),底層的中科曙光GPU,中科院的寒武紀(jì)芯片,申威處理器。在國(guó)產(chǎn)平臺(tái)上,構(gòu)建整套人工智能軟件的生態(tài)環(huán)境,推動(dòng)平臺(tái)建設(shè)。有分析工具,模型、算法、調(diào)度、服務(wù)框架,未來陸續(xù)將開源平臺(tái)在社區(qū)開放。這是GPU,中科曙光首個(gè)DCU處理器面向高性能計(jì)算的總體架構(gòu),我本人是在核心算法庫、軟件站,以及框架運(yùn)用開發(fā)層面,圍繞底層平臺(tái)構(gòu)建開發(fā)環(huán)境。有一個(gè)初步的工作成果,在網(wǎng)上作了開源,有興趣的人可以看一下。
我們借助這樣的工作基礎(chǔ),在全國(guó)布置了40多個(gè)城市云、10多個(gè)先進(jìn)計(jì)算中心,提供全國(guó)最大深度學(xué)習(xí)GPU集群,有一萬以上的GPU。還有與應(yīng)用方一起,構(gòu)建了全球最大視頻深度學(xué)習(xí)的在線系統(tǒng),科學(xué)院有裝置,提供深度學(xué)習(xí)、人工智能以及大數(shù)據(jù)支撐服務(wù)。
最后,簡(jiǎn)單介紹一下氣象環(huán)保大數(shù)據(jù)分析的工作。如果做氣象預(yù)報(bào),如何將各種來源數(shù)據(jù)做整合和訓(xùn)練,預(yù)報(bào)氣象,包括預(yù)警和分析。最近做了霧霾相關(guān)的預(yù)測(cè)研究,針對(duì)空氣質(zhì)量預(yù)測(cè),現(xiàn)在也有一些方法,是基于一些模擬軟件,計(jì)算指標(biāo)值,變量,如PM2.5、PM10、SO2、CO、O3等,通過四個(gè)空氣污染模式(NAQP、CAMX、CMAQ、WRFC),再做擬合。但仍然存在一些問題,比如與觀測(cè)值差別還較大。在現(xiàn)有模式結(jié)果的基礎(chǔ)上,如何利用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等方法,提升預(yù)報(bào)的準(zhǔn)確率。
OCF算法基于兩個(gè)假設(shè),得到兩條線,表明假設(shè)與實(shí)際不符,我們要做的工作就是把這兩條線的預(yù)測(cè)能夠更準(zhǔn)確,最后能夠重合。目前還沒有應(yīng)用更加復(fù)雜的方法,還是結(jié)合OCF最優(yōu)化算法,包括算法模塊的替換,預(yù)測(cè)效果還是不錯(cuò)的。
這里有四個(gè)圖,在90天的時(shí)間維度下和120天的時(shí)間維度下,看到兩個(gè)站點(diǎn)預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D。可以看到綠色(機(jī)器學(xué)習(xí)算法值)的線和藍(lán)色(觀測(cè)值)重合度還是很高的,兩條線趨勢(shì)變化也是一致的。圖中灰色線是最優(yōu)化算法集合實(shí)現(xiàn)的預(yù)測(cè),通過簡(jiǎn)單的機(jī)器學(xué)習(xí)算法能夠把空氣質(zhì)量預(yù)測(cè)應(yīng)用場(chǎng)景做得更加準(zhǔn)確,未來采用更加高效和深度學(xué)習(xí)方法能夠做得更好。
(根據(jù)錄音整理,未經(jīng)本人審閱)
提交關(guān)閉