12月9-10日,由全國工商聯(lián)環(huán)境商會主辦,以“學(xué)習(xí)貫徹十九大精神:鍛造產(chǎn)業(yè)利劍 護衛(wèi)美麗中國”為主題的“2017中國環(huán)保上市公司峰會”在廣東肇慶召開。
中科院高性能計算機研究中心主任、博導(dǎo)譚光明在峰會上表示,人工智能成為經(jīng)濟發(fā)展的新引擎,還給社會建設(shè)帶來新機遇。在技術(shù)層面也是國際社會各個國家科研機構(gòu)競爭的高端技術(shù)。
中科院高性能計算機研究中心主任、博導(dǎo) 譚光明
以下是演講實錄:
最近在環(huán)保應(yīng)用領(lǐng)域做了一點事情,霧霾檢測方向做了一些應(yīng)用,一些算法研究,跟大家分享一下,后續(xù)還有很多事情需要往前推進。
人工智能已經(jīng)成為國家發(fā)展戰(zhàn)略的一部分,美國、歐洲、日本等也發(fā)展迅速。這些數(shù)據(jù)能夠說明問題,像各領(lǐng)域人工智能公司的創(chuàng)建,如雨后春筍般出現(xiàn)。人工智能成為經(jīng)濟發(fā)展的新引擎,還有給社會建設(shè)帶來新機遇。在技術(shù)層面也是國際社會各個國家科研機構(gòu)競爭的高端技術(shù)。
人工智能技術(shù)可以分類,引用UCLA朱松純的分類,歸納為六個:
①機器學(xué)習(xí)(各種統(tǒng)計的建模、分析工具和計算的方法)
②計算機視覺(暫且把模式識別,圖像處理等問題歸入其中)
③認知與推理(包含各種物理和社會常識)
④機器人學(xué)(機械、控制、設(shè)計、運動規(guī)劃、任務(wù)規(guī)劃等),像近期波士頓動力公司做了機器人后空翻的演示。
⑤博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題)。
⑥自然語言處理(暫且把語音識別、合成歸入其中,包括對話)。
把近幾年的大事件,包括自動駕駛,把這些做一些分類,跟人工智能的深度學(xué)習(xí)技術(shù),包括知識圖譜、深度學(xué)習(xí)、增強學(xué)習(xí),這些在行業(yè)應(yīng)用中跟行業(yè)技術(shù)配合使用。今天提到人工智能就是深度學(xué)習(xí),其實這只是人工智能大領(lǐng)域里面很小的一塊,事實上還有早期機器學(xué)習(xí)相關(guān)算法的研究,發(fā)展到今天,深度學(xué)習(xí)的技術(shù)已經(jīng)把很多技術(shù)做了替代,變得更加前沿的一個方法。
人工智能的三次浪潮與深度學(xué)習(xí)算法有比較好的契合。1958、1982、1986年分別是人工智能興起的時候。李國杰院士說過:“人工智能已經(jīng)炒過幾回了,經(jīng)歷了幾個夏天和冬天,忽冷忽熱;現(xiàn)在終于到了秋天了,是收獲的季節(jié)了。”
這次人工智能浪潮的興起,毫無疑問得益于深度學(xué)習(xí)技術(shù)的發(fā)展和興起。深度學(xué)習(xí)技術(shù)發(fā)展歷程坎坷。20年前,Hinton提出了Neural Network,沒有得到熱門發(fā)展。NN逐漸冷落,SVM和Boosting等不斷興起……Hinton于2006年在《科學(xué)》上發(fā)表文章,首次提出DL。熱點的興起也離不開背后技術(shù)的發(fā)展。一方面得益于計算技術(shù)的發(fā)展和推動,還有就是大數(shù)據(jù)的發(fā)展,兩者結(jié)合使DL深度學(xué)習(xí)方法能夠發(fā)揮更有效的作用。深度學(xué)習(xí)的基本思想就是構(gòu)建具有很多隱層的機器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。
深度學(xué)習(xí)模型,層次很多,通常有5層、6層,甚至10多層,上百層神經(jīng)網(wǎng)絡(luò),對于技術(shù)能力的需求越來越大。在高度發(fā)展空間,深度學(xué)習(xí)類型有很多。針對不同領(lǐng)域,圖像、文本、語音識別等等,在實際應(yīng)用中常常都混合著使用,出現(xiàn)很多靈活的組合方式。根據(jù)實際實用問題,選擇合適的網(wǎng)絡(luò)。像很多寬帶一樣,google tensorflow,Caffe以及MX.NET等深度學(xué)習(xí)的框架。很多大公司或創(chuàng)業(yè)公司都基于這些框架開發(fā)自己的產(chǎn)品,做自己的研究。這些框架有不同的優(yōu)點和缺點。
這些缺點和深度學(xué)習(xí)的模型是一樣的,根據(jù)實際問題選擇更合適的框架和模型。做個簡單總結(jié),Caffe是最早的深度學(xué)習(xí)框架,科研應(yīng)用的綜合性能好,但主要局限于CNN。MX Net更加注重高效,文檔詳細,上手很容易,運用也靈活。 Google強力推出的Tensor Flow,很多人跟隨這個框架使用,功能很齊全,能夠搭建的網(wǎng)絡(luò)種類更豐富,但綜合性能比別的開源框架要差一些。但在某些階段也不太注重性能。一個有效的解決途徑是針對具體應(yīng)用設(shè)計混合型學(xué)習(xí)框架。
但是目前存在很多的問題,可以通過三個方面來闡述。
第一,產(chǎn)業(yè)鏈。產(chǎn)業(yè)鏈不完整,缺少從國產(chǎn)芯片、平臺、應(yīng)用軟件的完整產(chǎn)業(yè)鏈。生態(tài)圈不豐富:缺乏CNN、RNN等多種深度學(xué)習(xí)算法訓(xùn)練庫。
第二,平臺。缺少對國內(nèi)處理器、DCU及其他國產(chǎn)加速器的開源服務(wù)平臺。像跟曙光合作的DCU、寒武紀(jì),都沒有一整套開源作為支撐。缺乏覆蓋科學(xué)研究、經(jīng)濟民生等大規(guī)模深度學(xué)習(xí)訓(xùn)練的數(shù)據(jù)資源?,F(xiàn)在很多信息不共享,比如醫(yī)院、政府資源,數(shù)據(jù)看不到,平臺做的再好也沒有意義。
第三,應(yīng)用。頂級計算、國產(chǎn)處理器與深度學(xué)習(xí)應(yīng)用結(jié)合不足。深度學(xué)習(xí)應(yīng)用開發(fā)和使用門檻高、代價大、效率低、周期長。
針對這些問題,希望能夠結(jié)合以前在HTC做了一些技術(shù),構(gòu)建AI創(chuàng)新計算平臺,從云計算、大數(shù)據(jù)、高性能計算這三個層面創(chuàng)造高效、靈活部署的平臺,幫助用戶快速使用AI的平臺。我們希望構(gòu)建一個面向人工智能應(yīng)用的開源平臺。
這個平臺是從頂層到上層,就是SAAS、PAAS、IAAS,一直做到頂層應(yīng)用產(chǎn)品。高性能所更多是做底層基礎(chǔ)平臺建設(shè),最底層的IAAS,構(gòu)建一個統(tǒng)一的開發(fā)環(huán)境,幫助存儲分布式海量數(shù)據(jù),以及跟上層資源的調(diào)度、算法的聯(lián)系,還有一些訓(xùn)練服務(wù)的標(biāo)注工具,再上向,就是面向在線服務(wù)的軟件開發(fā)服務(wù)和標(biāo)準(zhǔn)接口,再往上就是面向國內(nèi)行業(yè)用戶,構(gòu)建不同行業(yè)的應(yīng)用場景,包括圖像識別、視頻處理、語音識別等等。在每個層面都有重點,底層的中科曙光GPU,中科院的寒武紀(jì)芯片,申威處理器。在國產(chǎn)平臺上,構(gòu)建整套人工智能軟件的生態(tài)環(huán)境,推動平臺建設(shè)。有分析工具,模型、算法、調(diào)度、服務(wù)框架,未來陸續(xù)將開源平臺在社區(qū)開放。這是GPU,中科曙光首個DCU處理器面向高性能計算的總體架構(gòu),我本人是在核心算法庫、軟件站,以及框架運用開發(fā)層面,圍繞底層平臺構(gòu)建開發(fā)環(huán)境。有一個初步的工作成果,在網(wǎng)上作了開源,有興趣的人可以看一下。
我們借助這樣的工作基礎(chǔ),在全國布置了40多個城市云、10多個先進計算中心,提供全國最大深度學(xué)習(xí)GPU集群,有一萬以上的GPU。還有與應(yīng)用方一起,構(gòu)建了全球最大視頻深度學(xué)習(xí)的在線系統(tǒng),科學(xué)院有裝置,提供深度學(xué)習(xí)、人工智能以及大數(shù)據(jù)支撐服務(wù)。
最后,簡單介紹一下氣象環(huán)保大數(shù)據(jù)分析的工作。如果做氣象預(yù)報,如何將各種來源數(shù)據(jù)做整合和訓(xùn)練,預(yù)報氣象,包括預(yù)警和分析。最近做了霧霾相關(guān)的預(yù)測研究,針對空氣質(zhì)量預(yù)測,現(xiàn)在也有一些方法,是基于一些模擬軟件,計算指標(biāo)值,變量,如PM2.5、PM10、SO2、CO、O3等,通過四個空氣污染模式(NAQP、CAMX、CMAQ、WRFC),再做擬合。但仍然存在一些問題,比如與觀測值差別還較大。在現(xiàn)有模式結(jié)果的基礎(chǔ)上,如何利用統(tǒng)計、機器學(xué)習(xí)等方法,提升預(yù)報的準(zhǔn)確率。
OCF算法基于兩個假設(shè),得到兩條線,表明假設(shè)與實際不符,我們要做的工作就是把這兩條線的預(yù)測能夠更準(zhǔn)確,最后能夠重合。目前還沒有應(yīng)用更加復(fù)雜的方法,還是結(jié)合OCF最優(yōu)化算法,包括算法模塊的替換,預(yù)測效果還是不錯的。
這里有四個圖,在90天的時間維度下和120天的時間維度下,看到兩個站點預(yù)測值與觀測值對照圖??梢钥吹骄G色(機器學(xué)習(xí)算法值)的線和藍色(觀測值)重合度還是很高的,兩條線趨勢變化也是一致的。圖中灰色線是最優(yōu)化算法集合實現(xiàn)的預(yù)測,通過簡單的機器學(xué)習(xí)算法能夠把空氣質(zhì)量預(yù)測應(yīng)用場景做得更加準(zhǔn)確,未來采用更加高效和深度學(xué)習(xí)方法能夠做得更好。
(根據(jù)錄音整理,未經(jīng)本人審閱)
提交關(guān)閉