日本av網 匯聚海量最新國內、國際資訊

當科技交流的黑夜降臨,華人和中國公司卻在全球學術峰會閃閃發光

2019-06-27已圍觀 來源:互聯網編輯:日本av網

2019年6月18日加州長灘,計算機視覺和模式識別大會 (CVPR) 的主議程如期展開。這項會議代表著全世界科技創新領域內的最重要方向之一:計算機視覺 (computer vision)。

自誕生以來,計算機技術已經獲得了長足的進步,從最初的算數開始,不斷進化出新的計算模式和形態,現已能夠執行廣泛的任務。但是萬法歸宗,計算機對這個世界的一切感知,仍然回到1 和 0 的輸入,依賴預先設計好的邏輯序列。隻要人不教給計算機,計算機就無法學會新的能力。

十多年前,一小撮科學家潛心研究一項名為深度學習的技術,模仿人腦神經元的連接結構,在計算機上創造“人工神經網絡”,終於實現重大突破。通過深度學習,今天的計算機已經擁有許多新的能力,而其中一項就是基於深度神經網絡的計算機視覺——“看到”,“看懂”真實世界,並以此為邏輯基礎進一步完成複雜任務的能力。

盡管是一門極為尖端和複雜的技術,計算機視覺的進步可以被所有人所享受到。

在美國,計算機視覺驅動的自動駕駛汽車已經在部分地區上路,承擔出租車的職能;在中國,廣受用戶喜愛的相機美顏濾鏡 app,則是基於計算機視覺的人臉識別能力,對人臉上的特征進行學習和識別,自動修改臉型、放大眼睛、疊加妝容;計算機視覺還在欠發達地區成為了“醫生”,診斷病症並建議治療方案,極大改善人們的健康狀況和生活質量。

計算機視覺技術仍在不斷進化,CVPR 正是這些進化被發表、記錄和被世界所了解的最佳舞台。

而在今年,華人成為了這屆會議最閃亮的星。

大會主席團成員朱鬆純教授在開幕演講中透露,CVPR 2019 共收到超過1.4萬名作者投稿的5,160篇論文。按照提交者國別統計,來自中國的論文占到了39%,超過美國(25%),在全部72個國家中也遙遙領先。

根據技術媒體機器之心的統計,中國已經連續兩年成為 CVPR 第一大投稿論文來源國。

這一數據並不反應最終 CVPR 2019 最終接收論文的結果。組委會今年最終接收了1,294篇論文。

今年的參會者總人數也超過了9,200,突破了自從1985年首次舉辦以來的曆屆記錄。來自中國的參會者更是達到1,044人,僅次於4,743人的美國。

矽星人在議程和展區內走訪,發現黃皮膚、講普通話者眾多,比例遠超其它人種和語言。中國參會者的熱情,加上美國本土大批華人研究員的參與,讓 CVPR 變成了亞洲麵孔的海洋。

盡管官方並未提供參會者的族群細分情況(為促進多樣化,保護參會者利益和隱私,過於具體的數據通常不會統計和公布,)幾乎可以確定的是,華人構成了本屆 CVPR 參會者的最主要部分。

一些網友在 Twitter 上表示,因為看到了來自中國投稿論文的驚人數量,對中國的科技和公司產生了更高的興趣。

作為大會的重頭戲,頒獎典禮也毫無意外地成為了優秀華人研究員的高光時刻。

CVPR 2019 的最佳論文獎頒給了聯合研究的《非視距形狀重建的費馬路徑理論》(A Theory of Fermat Paths for None-Line-of-Sight Shape Reconstruction) 一文。

該論文由美、英、加三國大學的研究者共同完成,第一作者為辛書冕,卡耐基梅隆大學 (CMU) 機器人學院博士生,西安交通大學電氣工程學士、CMU 電氣和計算機工程碩士。

這篇論文的標題聽上去十分晦澀,但它實際上探討了一個極為重要的問題:目前的計算機視覺能夠清楚地看到在視野 (line of sight) 之內的物體;而對於人類來說,即便一個物體在拐角背後,無法看到完整麵貌,也可以透過物體在其它表麵上的反射、漫射投影,以及在直覺的幫助下,猜出物體是什麽、長什麽樣。

在過去,機器無法像人一樣做到這些事情。

而這篇論文的最重要的貢獻,就是讓機器獲得類似人的“直覺”一樣的能力,提取極其有限、零碎和非直接的光學信息,最終精確地重建出物體本來的模樣。

比如在上圖中,例子(a)顯示相機和硬幣之間被障礙物擋住,直接視角隻能看到硬幣側麵;例子(b)顯示相機和硬幣之間有一張不透明的紙。研究者設計的計算機視覺係統可以通過幾何光學原理,結合硬幣在可見表麵上的投影,最終重建出一個相當準確的硬幣表麵浮雕。

(c) 顯示,這個係統重建出的硬幣表麵浮雕,和視野內直接觀測的結果特征基本吻合。

辛書冕等人的這篇論文有很大希望成為非視距重建領域的重要研究基礎。在可見未來的日常應用場景裏,這篇論文將能夠幫助計算機視覺驅動的係統變得更加“智能”。比如,自動駕駛汽車將能夠更準確地“看到”障礙物的背後,從而提高決策判斷的能力,變得更安全。

CVPR 2019組委會給了該篇論文極高的評價:“該論文在非視距重建(也即看到拐角背後)上作出了傑出的貢獻。這是一篇理論優美且具有啟發價值的論文,擴展了計算機視覺可能性的邊界。”

論文一作辛書冕在卡耐基梅隆大學光學實驗室。Image Credit: CMU

本屆大會的最佳學生論文獎頒發給了《用於視覺語言導航的強化跨模態匹配和自我監督模擬學習》一文,第一作者為加州大學聖巴巴拉分校自然語言處理組的王鑫。他師從本校助理教授王威廉(在社交網絡上活躍於人工智能話題討論的@王威廉),本科畢業於浙江大學。

這項研究的主要內容是讓機器人可以遵守自然語言指令(先右轉,到廚房後左轉,走過桌子進入走廊,進入走廊上右手沒有門的入口,在廁所前麵停下)進行視覺導航。

和上一篇論文類似,王鑫等人的這篇論文希望解決的也是一個人能夠輕鬆理解,但機器尚無法駕馭的任務。機器人想要按照這段指令進行導航,前提是它擁有一個全局地圖,從而提前設定好路點,就像在即時戰略遊戲裏那樣。但是在該論文的試驗環境中,機器人並沒有這樣的地圖。人類可以根據命令走一步看一步,但這樣的能力在過去對於機器人來說太過於複雜、不現實。

王鑫等人提出了一套新的解決辦法。簡單來說,機器人可以識別當前所處的局部區域,從自然語言指令裏關注到對應的部分,進行導航,再次識別新的局部環境,關注指令裏對應的部分,再次導航,以此往複,達到最終的目的地。

這篇論文同樣得到了組委會的高度評價。王威廉透露,本文是 CVPR 2019 滿分文章,在全部5,160篇投稿文章中得分排名第一,並且被程序委員會和領域主席評審團確定為口頭報告論文之一。

一篇論文在其領域的學術頂會上獲得如此待遇,是對參與研究者極高的嘉獎。

計算機視覺領域的開創式論文 ImageNet,更是在本屆大會上斬獲最高榮譽“朗吉特·希金斯獎”。這篇論文由華人研究員鄧嘉等人於十年前發表,斯坦福大學李飛飛教授指導。

ImageNet 項目的本質是一個大規模的標注圖像數據庫,每一張照片上的物體,甚至物體之間的互動,都用單詞或短語進行了標注,使得神經網絡訓練成為可能。ImageNet 論文目前在學術數據庫 Google Scholar 上的引用次數已經達到11,615次,在計算機視覺領域排名第一。

ImageNet 的存在使得更多研究者可以利用它來設計、訓練和測試最新的計算機視覺技術。在李飛飛等人舉辦的 ImageNet 挑戰賽上,許多高分神經網絡模型嶄露頭角、引發轟動,推動了深度學習的進步。

有趣的是,當下的許多論文往往使用了高性能計算設備和嶄新的算法,才能取得卓越成績,而 ImageNet 其實很大程度上依賴“為人工智能打工的人”。為了構建這個數據集,研究團隊密集使用了亞馬遜的 Mechanical Turk 眾包平台,用真人手動給圖片進行標注。

ImageNet 作者獲頒朗吉特·希金斯獎 Image Credit: Tony Peng/Synced

鄧嘉目前在普林斯頓大學計算機係擔任助理教授,領導著該校的視覺和學習實驗室,是領域內的知名學者之一。因為 ImageNet、推動計算機視覺技術發展以及諸多其它貢獻,李飛飛也被視為當今人工智能方麵的卓越人物。

回望當年的 CVPR 2009 上,剛發表的 ImageNet 並未進入主議程,隻是一篇默默無聞的 poster 論文,在展區中間和其它論文一起,限定時間內張貼展示,到點就要撤下。

發表十周年之際,ImageNet 獲頒 CVPR 朗吉特·希金斯獎,已經證明了其對於計算機視覺領域的重要價值。

三篇獲獎論文,讓奮鬥在美國學術界一線的華人學者迎來了高光時刻。而在大會的另一個“舞台”,大洋彼岸的中國科技公司也正在扮演更重要的主角。

根據大會官方資料,共有22家注冊於中國的科技公司參展 CVPR 2019,加上注冊於美國具有中國團隊和資本背景的科技公司,總數在30家左右。許多在計算機視覺學術研究以及工業應用方麵世界領先的中國公司,出現在了 CVPR 2019 的展區內,吸引了大批參會者駐足交流。

因為要放下一輛卡車車頭,圖森未來占據了展區內較大的一塊地方。這家公司美國總部位於加州聖迭戈,目前正在亞利桑那州的圖桑市附近區域路測無人駕駛貨運卡車,技術水平和路測經驗在該領域方向內名列前茅。

據美國公共廣播電台報道,圖森未來在今年五月底和美國郵政署 (United States Postal Service) 簽訂協議,將在達拉斯和鳳凰城之間超過一千英裏的公開道路上測試無人駕駛卡車運輸,為期兩周。美國郵政署官方資料顯示,該機構屬於美國政府,擁有近60萬名員工和22萬輛汽車,是全美國乃至世界最大的民用車隊,每年行駛裏程超過12.5億英裏,約合20億公裏。

除了與美國郵政署合作,圖森未來還和亞利桑那州當地的皮馬社區大學共同創建了自動駕駛卡車司機課程和認證項目,以促進當地就業增長和升級。該公司曾於2017年公開自動駕駛數據集,以幫助全球學者改進計算機視覺算法在真實駕駛環境中的性能。

阿裏巴巴、騰訊和百度也來到了 CVPR 2019 現場,給來自全球的參會者以機會一睹三家最具代表性的中國互聯網科技巨頭,在計算機視覺領域的研究和工業應用進展,如開源深度學習框架、人臉識別、自動駕駛和無人門店解決方案等。

三家公司分別有數十篇論文得到 CVPR 2019 收錄,在職研究員也在大會的不同領域委員會擔任主席。

參照美國知名科技公司 Google、微軟產學研互補的方式,結合各自在中國互聯網行業的技術需求,BAT 也在過去幾年內分別組建了自己的前沿技術研究院:阿裏的達摩院下設視覺實驗室,騰訊則有專司計算機視覺的優圖實驗室,百度研究院在矽穀也一直有較強的科研存在。

被稱為中國計算機視覺“四小龍”之一的曠視,帶來了本屆 CVPR 大會上最有趣的展示:沒有手柄,兩名玩家使用自己的身體作為“輸入設備”,控製各自的角色在《街霸》遊戲中對打。

這項技術可以同時鎖定兩名玩家的臉部,並追蹤他們的肢體動作,而硬件僅需要一台筆記本電腦和一個現成的普通網絡攝像頭。

商湯科技的展示也頗具創意:攝像頭捕捉體驗者的麵部,顯示屏上的梵高自畫像會跟著改變表情。

它的厲害之處在於不但能進行人臉識別和表情追蹤,還加入了神經圖像風格遷移,一項在計算機視覺領域較為熱門的技術,在複製表情的同時,還能保留原版自畫像特有的,梵高自成一派的風格。

在 CVPR 2019 上發表多篇論文並組織領域研討的滴滴出行,也在這段時間備受學術和業界的關注。這是因為在 CVPR 2019 開幕的幾天前,另一項機器學習頂級學術會議 ICML 2019 期間,滴滴宣布和今年圖靈獎得主約書亞·本吉奧 (Yoshua Bengio) 領導的加拿大科研機構 Mila 達成了戰略合作。

計算機視覺技術在近幾年的飛速發展,皆是因為深度學習作為基礎方法取得了重要突破,而本吉奧正是深度學習的“開山鼻祖”之一。因為上世紀90年代至今的不懈研究和貢獻,本吉奧另外兩位同時代的專家被合稱為深度學習的三劍客,共同獲頒被稱為“計算機界諾貝爾獎”的2018年圖靈獎。

根據公開資料,本吉奧創辦的 Mila 是截至目前全世界最大規模的大學級別深度學習研究機構。而和這樣的機構達成戰略合作,不但意味著滴滴的學術貢獻潛力得到世界級專家的認可,還標誌著來自中國的科研創新力量踏上了全球舞台。

去年,滴滴成立了 AI for Social Good (AI賦能社會) 共創平台,與十多所高校、科研機構和社會組織展開合作,在安全、健康、環境、無障礙等幾大核心方向進行項目研究,其中包括繪製高清空氣質量地圖幫助解決環保問題、推進新能源解決方案和智能交通技術的融合發展,以及推出司機 AI 關懷助手等。

在本屆 CVPR 籌備期間,滴滴還放出了 D²-City,一個大規模行車視頻的高清標注數據集,並在此基礎上舉辦了自動駕駛算法挑戰賽,兩支分別來自瑞典和中國的團隊摘得冠軍。

本吉奧表示,滴滴在 AI 賦能社會方麵的努力和 Mila 一致,“過去,Mila 曾經是一個專注基礎科學研究的機構;轉變思路之後,日本av的主要任務之一就是產出能夠對世界帶來正麵影響的研究。”

約書亞·本吉奧和滴滴出行科技合作總監吳國斌接受采訪。Image Credit: 杜晨/矽星人

當前,中國科技公司正在麵臨全球技術禁運的逆風環境。美國商務部將多家中國公司加入美國公司技術出口對象限製名單當中;一些計劃參加 CVPR 2019 大會的中國研究者,也因為美國移民局的簽證審批而行程受阻。

而位於加拿大的 Mila,是近期首個公開站出來對中國科技公司和研究者張開懷抱的北美頂級學術機構。本吉奧對滴滴的青睞,顯得尤為可貴。

在采訪中,本吉奧告訴矽星人,“日本av正處在一個關鍵時間點上,比曆史上任何時候都更需要強有力國際協作。否則,日本av將永遠無法決定地球命運的重要問題上達成共識。”

他認為,不僅僅是學術界,各行各業都應該正視中國創新力量對於全球技術整體進步的貢獻。“Mila 與滴滴的戰略合作隻是一小步,希望有更多的(北美)學術機構能夠站出來。”

這次戰略合作,以及華人和中國公司在全球學術峰會的優異表現,讓黑夜顯得不再暗淡無光。