close
X

地平線:面向低功耗 AI 晶片上視覺任務的神經網路設計 | AI 研習社職播間第 2 期


隨著這幾年神經網路硬體(GPU)的迅猛發展,深度學習在包括網際網路,金融,駕駛,安防等很多行業都得到了廣泛的應用。然而在實際部署的時候,許多場景例如無人駕駛,安防等對裝置在功耗,成本,散熱性等方面都有額外的限制,導致了無法大規模應用深度學習解決方案。

近日,在雷鋒網 (公眾號:雷鋒網) AI 研習社第 2 期職播間上,地平線初創人員黃李超就介紹了 AI 晶片的背景以及怎麼從演算法角度去設計適合嵌入式平臺高效的神經網路模型,並應用於視覺任務中。之後地平線的 HR 也進行了招聘宣講,併為大家進行了招聘解讀。公開課回放視訊網址:http://www.mooc.ai/course/537/thread?page=3?=aitechtalkhuanglichaokhuanglichao

黃李超:本科畢業於中山大學,在帝國理工碩士畢業之後於 2014 年加入了百度深度學習研究院,期間研發了最早的基於全卷積網路的目標檢測演算法——DenseBox,並在 KITTI、FDDB 等特定物體檢測資料集上長期保持第一名。 2015 年,他作為初創人員加入地平線,現研究方向包括深度學習系統研發,以及計算機視覺中物體檢測,語義分割等方向。

分享主題:面向低功耗 AI 晶片上視覺任務的神經網路設計

分享提綱:


1. 介紹當前 AI 晶片概況,包括現有的深度學習硬體發展情況,以及為何要為神經網路去設計專用晶片

2. 從演算法角度,講解如何設計高效能的神經網路結構,使其既滿足嵌入式裝置的低功耗要求,又滿足應用場景下的效能要求。

3. 分享高CP值的神經網路,在計算機視覺領網域的應用,包括實時的物體檢測,語義分割等。

4. 地平線 2019 年最全的校招政策解讀。


雷鋒網 AI 研習社將其分享內容整理如下:

今天,我將從以下三個方面來進行分享:

第一,當前 AI 晶片發展的現狀。這裡的 AI 晶片並不是單指狹義的 AI 專用晶片,而是指廣義上包括 GPU 在內所有可以承載 AI 運算的硬體平臺。

第二,在嵌入式裝置的環境下如何設計高效的神經網路。這裡我使用的案例都選自業界中比較重要的一些工作——也有一部分來自我們的地平線。同時這一節大部分的工作都已經落地到實際應用場景。

第三,演算法+硬體在計算機應用上的一些成果。

介紹 AI 晶片之前,先介紹 AI 的大環境。大家都知道現在是機器學習時代,其中最具代表性的是深度學習,它大大促進影像、語音、自然語言處理方面的發展,同時也給很多行業帶來了社會級的影響。例如在社交網路的推薦系統、自動駕駛、醫療影像等領網域,都用到了神經影像技術,其中,在影像醫療,機器的準確率甚至大大超過了人類。

從整個網際網路發展的情況來看,我們先後經歷了 PC 網際網路、移動網際網路時代,而接下來我們最有可能進入一個智慧萬物互聯的時代。PC 時代主要解決資訊的聯通問題,移動網際網路時代則讓通訊裝置小型化,讓資訊聯通變得觸手可及。我相信在未來,所有的裝置除了能夠互聯之外,還能擁有智慧:即裝置能夠自主感知環節,並且能根據環境做出判斷和控制。現在我們其實看到了很多未來的雛形,比如無人車、無人機、人臉開卡支付等等。不過,要讓所有裝置都擁有智慧,自然會對人工智慧這一方向提出更多要求,迎接更多的挑戰,包括演算法硬體等方面。

大規模運用深度學習需要去應對很多挑戰。首先從演算法和軟體上看,如果把 AI 和深度學習用在某個行業中,需要對這個行業的場景有深入的理解。場景中也有很多痛點需要去解決,但是是否一定要用深度學習去解決呢?在特定場景下,往往需要具備能耗比、CP值的解決方案,而不是一個僅僅能夠刷資料集的演算法。隨著這幾年演算法的快速發展,人們對 AI 的期望也在不斷提高,演算法的發展是否能跟上大家的期望,這也是一個問題。

硬體上看,當前硬體的發展已經難以匹配當前深度學習對於計算資源的需求,特別是在一些應用場景中,成本和功耗都是受限的,缺少低成本、低功耗、高效能的硬體平臺直接制約了 AI 技術和深度學習方案的大規模應用,這也是我們地平線致力於解決的行業難題。

當前 AI 晶片發展的現狀

接下來我們介紹一下 AI 硬體的一些情況。大家都知道,最早神經網路是執行在 CPU 上的。但是 CPU 並不能非常高效地去執行神經網路,因為 CPU 是為通用計算而設計的,而且其計算方式以序列為主——雖然一些執行指令可以同時處理較多資料。除此之外,CPU 在設計上也花了很多精力去優化多級快取,使得程式能夠相對高效地讀寫資料,但是這種快取設計對神經網路來講並沒有太大的必要。另外,CPU 上也做了很多其他優化,如分支預測等,這些都是讓通用的運算更加高效,但是對神經網路來說都是額外的開銷。所以神經網路適合用什麼樣的硬體結構呢?

在講這個問題之前,我們先從神經網路的特性說起:

第一,神經網路的運算具有大規模的並行性,要求每個神經元都可以獨立平行計算;

第二,神經網路運算的基本單元主要還是相乘累加,這就要求硬體必須有足夠多的運算單元;

第三,神經元每一次運算都會產生很多中間結果,這些中間結果最後並不會複用,這就要求裝置有足夠的頻寬。一個理想的裝置,它應該有就比較大的片上儲存,並且頻寬也要足夠,這樣才能放下網路的權重和網路的輸入;

第四,由於神經網路對計算的精度並沒有那麼敏感,所以在硬體設計的時候可以使用更簡單的資料型別,比如整型或者 16bit 的浮點數。因此,這幾年大家使用的神經網路解決方案,都是 CPU+比較適合於神經網路運算的硬體(可以是 GPU、DSP、FPGA、TPU、ASIC 等)組成異構的計算平臺。

最常用的方案是 CPU+GPU,這個是深度學習訓練的一個標配,好處是算力和吞吐量大,而且程式開發比較容易,但是它存在的問題是,GPU 的功耗比較高,延遲比較大,特別是在應用部署領網域的場景下,幾乎沒有人會用伺服器級別的 GPU。

應用場景下用的更多的方案是 FPGA 或者 DSP,它們功耗比 GPU 低很多,但是相對的開發成本較大。DSP 依賴專用的指令集,它也會隨著 DSP 的型號變化有所差異。FPGA 則是用硬體語言去開發,開發難度會更大。其實也有一起企業會用 CPU+FPGA 去搭建訓練平臺,來緩解 GPU 訓練部署的功耗問題。

雖然剛剛提了很多神經網路加速的解決方案,但是最合適的還是 CPU+專用晶片。我們需要專用 AI 晶片的主要原因是: 雖然現在的硬體工藝不斷在發展,但是發展的速度很難滿足深度學習對計算力的需求。其中,最重要有兩點:

第一,過去人們認為電晶體的尺寸變小,功耗也會變小,所以在相同面積下,它的功耗能保持基本不變,但其實這條定律在 2006 年的時候就已經終結了

第二點,我們熟悉的摩爾定律其實在這幾年也已經終結了。

我們可以看到晶片在這幾年工藝的發展變得越來越慢,因此我們需要依靠專門的晶片架構去提升神經網路對計算平臺的需求。

最著名的的一個例子就是 Google 的 TPU,第一版在 2013 年開始開發,歷時大約 15 個月。TPU 裡面使用了大量乘法單元,有 256*256 個 8 位的乘法器;片上有 28MB 的快取,能夠儲存網路的引數和輸入。同時,TPU 上的資料和指令經過 PCN 匯流排一起發過來,然後經過片上記憶體重新排布,最後計算完放回緩衝區,最後直接輸出。第一版 TPU 有 92TOPS 的運算能力,但是隻針對於神經網路的前向預測,支持的網路型別也很有限,主要以多層感知器為主。

而在第二版的 TPU 裡面,已經能夠支持訓練、預測,也能夠使用浮點數進行訓練,單個 TPU 就有 45TFLOPS 的算力,比 GPU 要大得多。

其實我們地平線也研發了專用的 AI 晶片,叫做 BPU,第一代從 2015 年開始設計,到 2017 年最終流片回來,有兩個系列——旭日和征程系列,都針對影像和視訊任務的計算,包括影像分類、物體檢測、線上跟蹤等,作為一個神經網路協處理器,側重於嵌入式的高效能、低功耗、低成本的方案。

比較值得一提的是,我們在我們的 BPU 架構上設計了彈性的 Tensor Core,它能夠把影像計算所需要的基本單元,常用操作例如卷積、Pooling 等硬體化,非常高效地去執行這些操作。中間通過資料路由橋(Data Routing Bridge)從片上讀取資料,並負責資料的傳輸和排程,同時,整個資料儲存資源和計算資源都可以通過編輯器輸出的指令來執行排程,從而實現更靈活地演算法,包括各種型別的模型結構以及不同的任務。

總的來說,CPU+專用硬體是當前神經網路加速的一個較好的解決方案。針對專用硬體,我們可以根據功耗、開發容易度和靈活性進行排序,其能耗跟其他兩者(開發容易度和靈活性)是相互衝突的——晶片的能效比非常高,但是它的開發難度和靈活度最低。

如何設計高效的神經網路

說了這麼多硬體知識,接下來我們討論怎麼樣從演算法角度,也就是從神經網路設計的角度去談怎麼加速神經網路。相信這個也是大家比較關心的問題。

我們先看 AI 解決方案,它從資料處理的方式可以分為雲端 AI 和前端 AI。雲端 AI 是說我們把計算放在遠端伺服器上去執行,然後把結果傳到本地,這個就要求裝置能夠時刻連線網路。前端 AI 是指裝置本身就能夠進行計算,不需要聯網,其在安全性、實時性、適用性都會比雲端 AI 更有優勢,而有一些場景下,也只能使用嵌入式的前端 AI 去解決。

嵌入式前端的場景落地難點在於功耗、成本和算力都是有限的。以網路攝像頭即 IP Camera 為例,它通過網線供電,所以功耗只有 12.5 瓦,而常用的嵌入式 GPU——Nvidia TX2,為 10-15 瓦。另外這個 TX2 雖然在計算資源、算力方面都比較強,能達到 1.5T,但它的價格是 400 美元,對於很多嵌入式方案來說都是不可接受的。因此要做好前端嵌入式方案,我們需要在給定的功耗、算力下,最大限度地去優化演算法神經網路模型,達到符合場景落地的需求。

我們加速神經網路的最終目標是:讓網路在保持不錯的效能下,儘量去降低計算代價和頻寬需求。常用的一些方法有:網路量化、網路減支和引數共享、知識蒸餾以及模型結構優化,其中,量化和模型結構優化是目前看來最有效的方式,在業界也得到比較廣泛的應用。接下來會重點講一下這幾個方法。

第一個是量化,它是指將連續的變數通過近似從而離散化。其實在計算機中,所有的數值表示都是離散化的,包括浮點數等,但是神經網路中的量化,是指用更低 bit 的數字去執行神經網路,而是不是直接使用 32bit 的浮點數(去執行神經網路)。近幾年的一些研究發現,其實數值表達的精度對神經網路並沒有太大的影響,所以常用的做法是使用 16bit 的浮點數去代替 32bit 的浮點數來進行計算,包括訓練和前項預測。這個在 GPU 以及 Google 的 TPU 第二代中已經被廣泛採用。此外,我們甚至發現,用半精度浮點數去訓練資料,有時候還能得到更好的識別效能。實際上,量化本身就是對資料集正則化的一種方式,可以增加模型的泛化能力。

此外,我們還可以將資料精度進行進一步壓縮使用,將 8 bit 的整數作為計算的計算單元,包括訓練和前項預測,這樣頻寬就只有 32bit 浮點數的四分之一,這類方法近年來也有不少工作,且已被業界所採用,比如 Tensorflow Lite 已經支持訓練時模擬 8bit 整數的運算,部署時真正採用 8 bit 整數去代替,其在浮點和影像分類的效能上相當。我們地平線也有類似的工作,訓練工具也是用 Int 8 bit 去訓練、預測,並且我們的晶片支持 MXNet 和 TensorFlow 框架訓練出來的模型

能不能把精度壓得更低呢,4 bit、2bit 甚至 1 bit?也是有的,但是會帶來精度的極大損失,所以沒被採用。

量化神經網路模型分為神經網路的權重量化、神經網路特徵的量化。權重量化對於結果輸出的損失比較小,特徵量化其實對模型的輸出損失會比較大,另外,大模型和小模型的量化造成的損失也不一樣,大模型如 VGG16、AlexNet 這種網路模型,量化後幾乎沒有損失;而小模型則會有一些損失。現在 8bit 引數和特徵量化可以說是一個比較成熟的方案,基本上可以做到跟浮點一樣好,並且對硬體也更加友好。下面這個表,是在 Image Net 資料集上的進行的量化結果的評測,也是 Google Tensorflow Lite 的量化方案與我們地平線內部的量化方案的一個對比。

我們可以看到,無論是哪一家的方案,損失其實都非常小,其中,小模型 MobileNet 0.25 在 Image Net 的損失方面,Google 在 1.6% 左右,而我們的量化方案能夠維持在 0.5% 以內。同時我們這個量化方案在 2016 年就已經成熟了,而 Google 的去年才放出來,從這個角度上講,我們這方面在業界內是領先的。

除了量化,模型加速還可以通過模型剪枝和引數共享實現。一個典型的案例就是韓鬆博士的代表性工作——Deep Compression。減支可以是對整個卷積核、卷積核中的某些通道以及卷積核內部任意權重的剪枝,這裡就不多說,大家有興趣可以去看一下原論文。

網路量化相比,剪枝和引數共享從應用角度上來看,並非一個好的解決方案。因為關於剪枝方面的研究,現在這些論文在大模型上做的比較多,所以在大模型上效果比較好,但是在小模型上的損失比較大,當然我們這裡說的小模型是比 MobileNet 等模型更小的一些模型。另外,剪枝所帶來的資料稀疏(任意結構稀疏),通常需要一個明顯的稀疏比例才能帶來一個實質性的的加速。結構化的稀疏加速比相對更容易達到,但是結構化的稀疏比較難訓練。同時從硬體角度上講,如果要高效地執行稀疏化的網路結構或者帶共享的網路,就要專門設計硬體去支持它,而這個開發成本也比較高。

知識蒸餾也是很常用的壓縮模型方法,它的思想很想簡單,用一個小模型去學習一個大模型,從而讓小模型也能實現大模型的效果,大模型在這裡一般叫 Teacher net,小模型叫 Student net,學習的目標包括最終輸出層,網路中間的特徵結果,以及網路的連線方式等。知識蒸餾本質上是一種遷移學習,只能起到錦上添花的作用,比直接用資料去訓練小模型的效果要好。

最後講一講模型結構優化,它是對模型加速最有效的方式。下圖可以看到從最初的 AlexNet 到今年的 MobileNetV2,引數已經從原來的 240MB 縮小到 35MB,模型的計算量也有了一定的減少,但是在影像分類的準確率上,從 57% 提到到了 75%,模型結構優化最直接的方式就是,有經驗的工程師去探索小模型結構,而這些年來也有通過機器去進行搜尋模型結構的工作。

接下來講一下在模型結構優化中,怎麼去設計一個高效的神經網路結構,它需要遵循的一些基本原則。

首先,要糾正幾個誤區:第一,是不是小模型跑得比大模型快?這個顯然是不成立,我們可以看下圖中 Google Net 和 AlexNet 箭頭指向的方向,AlexNet 顯然大一些,但它比 Google Net 跑得快一些,計算量更小一些。第二,網路計算量小是不是就跑得更快呢?其實也不是,因為最終的執行速度取決於計算量和頻寬,計算量只是決定執行速度的一個因素。

所以說,一個好的、跑起來比較快的神經網路結構,必須要平衡計算量和頻寬的需求,這裡我們跟隨 ShuffleNetV2 論文的一些觀點——雖然這個並不是我們的工作,但是文章寫得很好,其中有不少觀點也和我們在模型結構優化過程中得到的一些結論是一樣的。在分析的時候,我們以 1×1 的卷積為例,假設所有的引數和輸入輸出特徵都可以被放到快取當中,我們需要特別關注的是卷積的計算量——用 FLOPs(Float-Point Operations) 即浮點數的操作次數去表述,頻寬用 MAC(Memorry Access Cost) 即記憶體訪問的次數去表示。同時,我們需要額外關注的是頻寬和計算量的比。對於嵌入式的裝置來講,頻寬往往是瓶頸。拿 Nvidia 的嵌入式平臺 TX2 為例,它的頻寬比上計算力大概是 1:26。

第一,要分析一下輸入通道數、輸出通道數以及輸入大小對頻寬和計算量的影響,ShuffleNetV2 提出的準則第一條是,在同等的計算量下、輸入通道數和輸出通道數下,頻寬是最節省的,公式為:。其實輸入通道、輸出通道和輸入大小任意一個過小的話,對頻寬都會產生不友好的影響,並且會花很多時間去讀取引數而不是真正去計算。

第二,卷積中 Group 的個數又對效能有什麼影響呢?ShuffleNetV2 這篇文章指出,過多的 Group 個數會增加部門計算量的頻寬,我們可以看到計算量的頻寬和 Group 的個數近似為正比。從這一點上來看,MobileNet 裡頭的 Depthwise Convolution 實際上是一個頻寬需求量非常大的操作,因為頻寬和計算量的比值接近於 2。而實際運用的時候,只要頻寬允許,我們還是可以適當增加 GROUP 個數來節省計算量,因為很多時候,頻寬實際上是沒有跑滿的。

第三,ShuffleNetV2 說到的第三條準則是,過度的網路碎片化會降低硬體的並行度,這就是說,我們需要思考 operator 的個數對於最後執行速度的影響。其實 ShuffleNetV2 這種觀點不夠嚴謹,準確來說,我們需要把 operator 分為兩類:一類是可以並行的(如左圖),兩個框可以平行計算,concat 的記憶體也可以提前分配好;另一類是必須序列去進行計算,沒有辦法並行的 operator 則會降低硬體的並行度。對於硬體來說,可以並行的 operator 可以通過指令排程來充分利用硬體的並行能力。從這條準測上看,DenseNet 這種網路結構在應用實際上非常不友好。它每次的卷積操作計算量很小,而且每次計算需要依賴先前所有的結果,操作之間不能並行化,跑起來很慢。另外,太深的網路跑起來也比較慢。

最後,ShuffleNetV2 也指出,Element-wise 對於速度的影響也是不可忽視的——一定程度上可以這麼說。因為 Element-wise 雖然計算量很小,但是它的頻寬需求比較大。其實如果把 Element-wise 的操作和卷積結合在一起,那麼 Element-wise 的操作對最後頻寬帶來的影響幾乎為 0。常用的例子是,我們可以把卷積、啟用函式和 BN 放在一起,這樣的話,資料可以只讀一次。

講到這裡,我們做一下總結,設計高效的神經網路,我們需要儘可能讓 operator 做並行化計算,同時去減少頻寬的需求,因為最後的速度由頻寬和計算量共同決定的,所以這兩者哪個存在瓶頸,都會制約執行速度。

過去優化神經網路結構往往依靠非常有經驗的工程師去調參,我們能不能直接讓機器去自動搜尋網路結構呢?

其實也是可以的,比如說 Google 前段時間進行一項工作叫 NASNet,就是通過強化學習,把影像分類的準確率和網路本身的計算量作為反饋,去訓練網路結構生成器,讓網路結構生成器去生成比較好的網路結構。

Google 的這項工作大概用了 450 GPUs 和 4 天,搜尋出了效能和計算量都還不錯的網路結構,這兩個圖是網路結構的基本單元。然而,通過我們之前的分析,它這兩個基本單元肯定是跑不快的,因為操作太零碎,而且很多操作沒有辦法並行。所以對於搜尋網路結構,考慮真實的執行速度是一個更合適的選擇。所以就有了後續的工作,叫做 MnasNet。


Google 這次直接把手機上的執行速度作為強化網路的反饋。我們可以看到用這種方法搜尋出來的網路結構合理很多,同時效能也比之前稍微好一些。

在同時期,我們也有進行了類似的工作——RENAS,它實際上借鑑了 NASNet,但我們側重於去解決搜尋效率低下的問題。和 NASNet 不同,我們採用進化演算法搜尋網路結構,同時用強化學習去學習進化的策略。工作方式的連結放在上面,大家感興趣也可以去看一下。

RENAS 的一個優點是,它的網路搜尋的效率要高得多:我們用了 4GPU 和 1.5 天就搜出比 NASNet 更好的結構。不過它的缺點也跟 NASNet 一樣,都用了計算量作為一個衡量需完成的數量,因此它搜尋出來的所有結果只是計算量低,但是執行速度並不一定特別快。

演算法+硬體在計算機應用上的一些成果

講了這麼多,最後我們可以展示一下,經過優化後的網路在主流視覺任務上的應用效果:

最常見的影像級別的感知任務比如影像分類、人臉識別等,由於它們輸入比較小,所以整體計算量並不大,對於網路的效率要求也沒有那麼苛刻。而在影像分類以外的工作比如物體檢測 語義分割等等,它們的輸入比影像分類大得多,往往在 1280×720 這種解析度或者更大的解析度。MobileNet 或者 ShuffleNet 在這個解析度下的計算量,還是挺高的。另外在物體檢測、語義分割的問題當中,尺度是一個要考慮的因素,所以我們在設計網路的時候,要針對尺度問題做一些額外的配置,包括並引入更多分支,調整合適的感受野等等。

對於物體檢測、語義分割任務,我們專門設定了一個網路結構,它的大概樣子如上圖中的右圖所示,特點是我們使用了很多跨尺度的特徵融合模組,使網路能夠處理不同尺度的物體,另外,我們這個網路的基本單元都遵循了簡單、高效的原則,用硬體最友好、最容易實現的操作去組建基本模組。

我們在一些公開資料集上測試了這個模型的效能,主要有兩個資料集,一個是 Cityscapes,它是語義分割資料集,影像解析度很大,原始影像解析度為 2048×1024,標註有 19 類。在這些資料集上,我們的網路跟曠世最新的一篇論文 BiSeNet 做比較——BiSeNet 是目前能夠找到的在語義分割領網域中速度最快的一個方法,它的計算在右邊的表格中,其中的計算模型*Xception39 在 640×320 的解析度,大概需要 2.9G 的計算量,而我們的一個小模型在同等規模的輸入下,達到幾乎一樣的效果,只需要 0.55G 的計算量。

同時,在效能上,——語義分割裡面我們用 mIoU 作為需完成的數量,在 2048×1 024 的解析度下,我們稍微大一點點的網路跟 Xception39 非常接近。我們的網路還在 KITTI 資料集上做了一個測試,它的解析度大概為 1300×300 多,特別是車和人的檢測任務上所表現出來的效能,和 Faster RCNN,SSD,YOLO 等常見的方法的模型相比,具有非常高的CP值。

下面展示一下我們演算法在 FPGA 平臺上實施的一個 Demo。

我們這個網路同時去做物體檢測和語義分割,以及人體姿態估計。FPGA 也是我們第二代晶片的一個原型,第二代晶片年底會流片回來,單塊晶片效能會是 FPGA 這個平臺的 2-4 倍。這個資料是在美國的拉斯維加斯採集的,除了人體姿態的檢測,我們還做了車載三維關鍵點定位,它的執行速度可以達到實時,也作為我們重要的產品在車廠中使用。Demo 只是我們工作的冰山一角,我們還有很多其他的方向的工作,比如智慧攝像頭、商業場景下的應用,目標是為萬物賦予智慧,從而讓我們的生活更美好。這是我們的宣傳片,相信大家在進職播間的時候都已經看過了。

最後迴歸本次做直播的一項非常重要的目的——校招。我們今年的校招馬上要開始了,接下來由 HR 姐姐來介紹一下地平線招聘的情況。

地平線 2019 年最全的校招政策解讀

大家好,我是地平線負責招聘的 HR 趙紅娟,接下來我來整體介紹一下公司的情況以及校招流程。

地平線(「公司」)是國際領先的嵌入式人工智慧(「AI」)平臺的提供商。公司基於自主研發人工智慧晶片演算法軟體,以智慧駕駛,智慧城市和智慧零售為主要應用場景,提供給客戶開放的軟硬體平臺和應用解決方案。經過三年的發展,地平線現在有 700-800 的正式員工,加上實習生,大概有 900 人左右。同時,公司 70% 多的員工都是研發人員,我們的平均工業界經驗為 7 年左右。

我們公司的技術團隊實力雄厚,除了國內的各大廠之外,同時也有來自如 Facebook、華為、高通等國際知名企業的成員。目前,我們的業務橫跨「軟+硬,端+雲」領網域,後續會持續深耕嵌入式人工智慧。

目前,我們也對已經確立的業務方向內部做了一個總結歸類,叫「一核三翼」,「核」是指我們的晶片,應用到智慧駕駛、智慧城市和智慧零售三個領網域。其中,智慧城市主要是泛安防領網域——這是一個非常有潛力的市場,而我們的智慧零售的具體方向是基於我們嵌入式人工智慧晶片技術,將線下零售資料線上化、資料化,為零售管理者提供多層次解決方案。

下面進入關鍵點,即我們希望什麼樣的同學加入?用幾個詞來概括就是:Dedicated、 Hands-on、 Team working。

我們能夠提供給大傢什麼呢?這也是大家比較感興趣的點。我將從職位、工作地點和福利三個方向講一下。

職位方向有演算法、軟體、晶片硬體、產品五大方向。

工作地點,總部在北京,同時在、南京、上海、廈門、深圳、杭州、硅谷都有 office,大家可以選擇自己喜歡的城市。

福利則包括:

1.    拿到校招 Offer 的同學,畢業前能來地平線實習,可以享受到跟畢業以後正式員工相同的薪酬標準;

2.    試用期結束以後,所有畢業生統一組織轉正答辯,根據轉正答辯成績有推薦大家去參加各種國際頂級會議,或者前往硅谷工作或參觀等諸多開眼界的機會。

 3.    針對大家從學生到職場人的轉型,我們會提供更新版地平線大學,助力職業生涯發展。地平線大學分為必修課和選修課,同時會有常用的禮儀方面的培訓

4.    其他福利其他公司可能都有,但是我們公司會更貼心,比如電競椅、升降桌,補充醫療、入職&年度體檢、全天零食供應、餐補、交通補、租房補貼、帶薪年假 10 天、產假 6 個月、陪產假 15 天、多彩 offsite、各種興趣社團等等。

最後,我們附上校招通關祕籍:

宣講學校:東南大學、哈爾濱工業大學、華中科技大學、南京大學、清華大學、上海交通大學、西安交通大學、浙江大學、中國科學技術大學和 中國科學院大學等十所學校。

校招流程:宣講會當天筆試,當晚出筆試成績,隔天進行面試,面試通過就會發錄用意向書,十一後發正式 Offer。

簡歷投遞方式:包括網申和宣講會現場投簡歷。

總之,地平線非常重視校招生及其培養,希望給大家更好的發展空間,培養一代又一代的地平線人,為公司創造更大的價值,為科技進步貢獻自己的力量!

下面是中科院站的宣講群二維碼,歡迎同學們前來圍觀。

分享結束後,兩位嘉賓還對同學們提出的問題進行了回答,大家可以移步社區(http://www.gair.link/page/blogDetail/8437)進行詳細瞭解。

以上就是本期嘉賓的全部分享內容。更多公開課視訊請到 AI 研習社社區觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。


附:問答環節

技術類問題:

1.地平線之前應該基於 FPGA 做過一些駕駛輔助相關的產品吧?實時性大概可以做到多少?第二代晶片在此基礎上能夠提升 2~4 倍嗎?

做過,能做到 20 幀每秒以上。是的。

2.地平線在車道檢測上有沒有比較好的方案?

如果你感興趣的話,可以來地平線參觀參觀,一起聊一聊。

3.輕量級網路模型有哪些?

有一些專門討論輕量級網路的文章,比如 MobileNet 和 ShuffleNet 這類文章,都會提供計算量和效能的需完成的數量,直接拿來用就可以了。文章也會提供一些物體檢測和語義分割的 baseline,你可以把輕量級網路稍微改造一下,就可以用在這些任務上。

4.地平線有相關 Paper 發表嗎?

地平線內部工作可以分為兩類,一類是探索性的工作,這部分工作我們會有實習生髮表一些論文;另一類是優化的工作,並沒有發表論文。

5.貴公司現在都是專用晶片?以後有可能有通用晶片賣給使用者跑自己的模型嗎?

自己訓練的網路當然能在我們自己的晶片上跑,在晶片上跑是我們訓練網路最重要的一個目的。但是,我們以後也會公開,相容去跑一些其他的模型

6.Tensorflow 和騰訊的嵌入式優化有什麼區別?

Tensorflow 的系統和社區很龐大,相關知識文件和模型也比較完善,騰訊的這個嵌入式裝置上優化得很好,可能比 Tensorflow 好一些,輕量級一些,看大家的取捨吧。

7.產品落地需要考慮小目標檢測嗎?

小目標檢測這個問題在產品落地的時候肯定是需要考慮的,因為很多時候車輛檢測任務,客戶對你的演算法需求是檢測到 100 米甚至 150 米的車,而在常規的廣角攝像頭下,檢測的影像大概只有十幾的畫素了。

校招相關問題:

1.招 2020 屆應屆生嗎?

當然可以,非常歡迎。2020 屆同學可以先申請實習,以後可以參加 2020 屆的校招。我們明年會在夏天安排招聘會,專門針對 2020 屆畢業生。並且,我們長期招聘實習生。

2.社招有嗎?社招有筆試嗎?

也有,大家可以通過網申投遞。一般情況下,社招沒有筆試,但是針對工程專業的同學,我們會考察你們的程式碼功底。

3.杭州有什麼崗位?是新開的分部嗎?

明年在杭州開設 office,大部分職位都是開放的,目前我們沒有職位的限制

4.工程院和研究院有崗位嗎?

工程院在北京和南京都有職位,南京研究院也在招實習生。

5.具體職位要求是什麼?

具體職位要求大家可以去我們釋出的職位招聘網站上看一下。

附上校招網申地址 位址:http://hobot.zhiye.com/Campus

6.非 985 學校的學術要嗎?有學歷要求嗎?

我們對所有學校的學生都開放,不限大家是大學生、研究生以及是否 985 院校畢業生,關鍵看大家的實力,我們有筆試和麵試的環節對大家進行考察。

7.廈門招演算法工程師嗎?

廈門有招演算法工程師,但是會跟北京的演算法工程師有一些區別,深度學習的演算法工程師集中在北京。

9.是否有面試機會?

是否有機會面試要取決於大家的筆試成績。

10.什麼時候到華科進行校招?

我們會在公眾號(HorizonRobotics)上同步行程。

11.校招安排在什麼時間?

最早的一場是在號 2018 年 9 月 12 日 18:00,國科大中關村校區教學樓 S101 報告廳 (數學所西側 經管學院教學樓內)。後續站次安排會在微信公眾號(HorizonRobotics)及時更新。

12.中科院畢業生去得多嗎?

我們公司中科院來的工程師應該是最多的。


分享是一種美德,喜歡就幫我們讚一下支持吧~

為你推薦

  • 早市上,擺出自家產的「老物件」

    早市上,擺出自家產的「老物件」

    冷點也沒啥。 相比夏天的繁榮,冬天的早市顯得有些蕭索;相比夏天的悠閒,冬天逛早市的人們總是步履匆匆……1月12日清早的菜園街早市上,人們行色匆匆,一改往常的挑挑揀揀,都速戰速決的樣子,因為冷得伸不出手

  • 安安靜靜享受愛情的五大星座

    安安靜靜享受愛情的五大星座

    金牛座:懶人尋求簡單的愛情金牛座的愛情觀是不尋求波瀾不驚只求安安穩穩,所以他們合適很簡單夸姣的小夸姣。或許跟金牛們在一起,沒有浪漫的綿綿細語,沒有偶然的意外驚喜,有得僅僅茶米油鹽的日子瑣碎小事,可是這

  • 生死那刻,感謝你選擇了我

    生死那刻,感謝你選擇了我

    陝西孕婦墜樓事件已過去近一年了,但還久久縈繞在腦海裡,深深理解她當時承受的十二級最高疼痛(醫學上把人體能感受到的疼痛等級劃分出了12個級別,分娩屬於第12級)。但又有疑惑,為什麼她當時不可以選擇自己簽