摘要:隨著京津冀、長三角、粵港澳大灣區(qū)、成渝等地啟動建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點,“東數(shù)西算”工程全面正式啟動,作為數(shù)據(jù)處理的核心新型基礎(chǔ)設(shè)施,人工智能、物聯(lián)網(wǎng)、云計算、區(qū)塊鏈等技術(shù)將迎來更為精細化的發(fā)展前景。
隨著京津冀、長三角、粵港澳大灣區(qū)、成渝等地啟動建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點,“東數(shù)西算”工程全面正式啟動,作為數(shù)據(jù)處理的核心新型基礎(chǔ)設(shè)施,人工智能、物聯(lián)網(wǎng)、云計算、區(qū)塊鏈等技術(shù)將迎來更為精細化的發(fā)展前景。近期,作為成渝地區(qū)東數(shù)西算的深度參與者,特斯聯(lián)對外公布了其計算機視覺(CV)領(lǐng)域的多個科研突破,并有8篇論文被CVPR、TPAMI等頂級國際學術(shù)會議和期刊收錄。
此次,特斯聯(lián)在 CV 領(lǐng)域的科研突破涵蓋了語義分割、圖像增強、顯著物體識別、遷移學習、行為識別,等方面。其中不少創(chuàng)新技術(shù)打破了現(xiàn)有技術(shù)上限,亦開發(fā)了數(shù)個性能更優(yōu)、識別更快、效率更高的模型,這些技術(shù)研究的應(yīng)用與推廣將會成為特斯聯(lián)賦能城市數(shù)字化、智能化的有力保障。
在機器視覺行業(yè)產(chǎn)業(yè)鏈中,如上游的光源、鏡頭、工業(yè)相機、圖像處理器、圖像采集卡等硬件,圖像處理軟件和底層算法等軟件系統(tǒng)會隨著機器視覺的迭代而快速發(fā)展,推進整個產(chǎn)業(yè)鏈的升級。全球知名AI專家、特斯聯(lián)集團首席科學家兼特斯聯(lián)國際總裁邵嶺博士及其團隊在該領(lǐng)域中提出的圖像和視頻的識別和學習各算法,極大縮短了訓練和推理時間,從圖像識別提升、識別效率提升以及解決數(shù)據(jù)標注瓶頸三個方面,提升了整體視覺應(yīng)用效果:
1)圖像識別提升
在圖像識別方面,團隊的技術(shù)突破主要集中在算法層面,囊括背景消除模塊、圖像特征突出等。這些可以從圖像本質(zhì)入手,豐富圖像本身信息,去除多余噪點,為后續(xù)圖像識別提供高清的圖像數(shù)據(jù),是高效率識別的基礎(chǔ)。更有技術(shù)突破采用創(chuàng)新的手法,如加上聲音信息來協(xié)助識別,提高信息準確度。
在被收錄于頂會CVPR的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》(《學習用于小樣本語義分割的非目標知識》)研究中,團隊從挖掘和排除非目標區(qū)域的新角度重新思考了少樣本語義分割,繼而提出了一個新穎的非目標區(qū)域消除(Non-target Region Eliminating)框架,其中包含了一個背景挖掘模塊(Background Mining Module)、一個背景消除模塊(Background Eliminating Module)和一個分散注意力的目標消除模塊(Distracting Objects Eliminating Module)以確保模型免受背景和分散注意力目標的干擾進而獲得準確的目標分割結(jié)果。不僅如此,該研究還提出一個原型對比學習(Prototypical Contrastive Learning)算法,通過精煉原型的嵌入特征以便更好的將目標對象與分散注意力的對象區(qū)分開來。
采用不同模塊的目標分割表現(xiàn)
在被收錄于TPAMI期刊的《Learning Enriched Features for Fast Image Restoration and Enhancement》(《學習用于快速圖像修復(fù)和增強的豐富特征》)研究中,團隊發(fā)現(xiàn)現(xiàn)實中的相機存在諸多物理限制,尤其在復(fù)雜的照明環(huán)境,采集的圖像經(jīng)常會出現(xiàn)不同程度的退化現(xiàn)象。比如智能手機相機的光圈很窄,傳感器很小,動態(tài)范圍也有限,因而經(jīng)常產(chǎn)生噪聲和低對比度的圖像。為此團隊提出了一種全新架構(gòu),其整體目標是通過整個網(wǎng)絡(luò)維持空間精確的高分辨率表征并從低分辨率表征中接收互補的上下文信息。 方法的核心囊括以下關(guān)鍵元素的多尺度殘差塊:(a) 用于提取多尺度特征的并行多分辨率卷積流,(b)跨多分辨率流的信息交換,(c)用于捕獲上下文信息的非局部注意力機制,(d)基于注意力的多尺度特征聚合。 該方法學習了一組豐富的特征,即結(jié)合了來自多個尺度的上下文信息,同時保留了高分辨率的空間細節(jié)。該技術(shù)可以解決現(xiàn)實中物理相機的缺陷,提高圖片質(zhì)量,也為后續(xù)識別提供良好的載體。
采用我們所提出方法(下排右二)生成的圖像在視覺上更接近于亮度和整體對比度的地面真實情況
團隊還就顯著目標檢測(SOD)數(shù)據(jù)集的嚴重設(shè)計偏差問題進行了研究,并收集了一個全新高質(zhì)量,目前最大的實例級SOD數(shù)據(jù)集- Salient Objects in Clutter(SOC),以縮小現(xiàn)有數(shù)據(jù)集與真實場景之間的差距。通過對203個代表性模型的回顧,和一個線上基準模型的維護,以及100個SOD模型全面的基準和性能評估,實現(xiàn)對SOD發(fā)展的動態(tài)追蹤以及更深入的理解。此外,團隊還設(shè)計了三個數(shù)據(jù)集增強策略,包括標簽平滑,隨機圖像增廣和基于自監(jiān)督學習的正則化技術(shù)以有效提高尖端模型的效果。該技術(shù)可以在復(fù)雜環(huán)境中讓目標突出,在信息混亂的圖像或者視頻中,準確抓取目標,為識別分析提供準確信息。此研究成果被收錄于TPAMI期刊中。
與實例級ILSO數(shù)據(jù)集(a)和MS-COCO數(shù)據(jù)集(c)相比,我們的SOC數(shù)據(jù)集(b&d)可標注精細、平滑的邊界
由布景或攝像機視點變化引起的域偏移下的行為識別問題也是團隊重點研究的方向。在收錄于頂會CVPR中的《Audio-Adaptive Activity Recognition Across Video Domains》(《跨視頻域的音頻自適應(yīng)行為識別》)的研究中,團隊提出了一種新穎的音頻自適應(yīng)編碼器,借助豐富的聲音信息來調(diào)整視覺特征以便模型在目標域中學習更多的判別特征。 它通過引入一種音頻注入識別器(Audio-infused Recognizer)以進一步消除特定域(domain-specific)的特征,并利用聲音中的域不變信息來實現(xiàn)有效的跨域跨模態(tài)的交互。此外,還引入了一個actor shift的新任務(wù),以及相應(yīng)的數(shù)據(jù)集,以在行為外觀發(fā)生巨大變化的情況下挑戰(zhàn)該模型。該技術(shù)加入聲音參數(shù)來識別物體活動,可以更加準確識別和分析出物體的行為,在智慧城市應(yīng)用中可以有更準確的分析結(jié)果。
當同一活動的視覺相似性在不同領(lǐng)域間難以發(fā)現(xiàn)時,我們的模型(紅色)可以使用來自聲音的額外線索來提高識別精度
基于自注意力的網(wǎng)絡(luò)在圖像描述取得了巨大成功但仍存在距離不敏感和低秩的瓶頸。為解決這一問題,團隊在發(fā)表于IEEE Transactions on Multimedia期刊中的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》(《用于圖像描述的多分支距離敏感自注意力網(wǎng)絡(luò)》)研究中,對自注意力機制從兩個方面進行了優(yōu)化:一個是距離敏感的自注意力方法(DSA),通過在SA建模過程中考慮圖像中目標之間的原始幾何距離,來提高圖像場景理解;另一個是多分支自注意力方法(MSA),以打破SA中存在的低秩瓶頸,并在可忽略的額外計算成本下提高MSA的表達能力。
我們的方法(下排)和標準Transformer模型(上排)生成的注意力可視化和圖像描述示例。一些準確的單詞用綠色標記,錯誤和不準確的單詞用紅色標記。我們的方法可得到更精確的描述。
2)識別效率提升
為提高識別效率,團隊研究出新的算法框架以及新的采樣器,可以顯著提高識別效率,大大縮短訓練時間。在圖像識別中,快速的識別可以提高服務(wù)質(zhì)量,減少延遲,讓人們感受更智能的交互。
團隊發(fā)現(xiàn)大多數(shù)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的視頻物體分割(RVOS)方法采用基于單幀的空間粒度建模,而視覺表征的局限性容易導致視覺與語言匹配不佳。基于此,團隊提出一種新穎的多級表征學習方法,通過探索視頻內(nèi)容的固有結(jié)構(gòu)來提供一組視覺嵌入,從而實現(xiàn)更有效的視覺-語言語義對齊。具體來說,它在視覺粒度方面嵌入了不同的視覺線索,包括視頻級別的多幀長時信息、幀級別的幀內(nèi)空間語義以及對象級別的增強對象感知特征。其次,它還引入了動態(tài)語義對齊(DSA),可以更緊湊、更有效地動態(tài)學習和匹配具有不同粒度視覺表征的語言語義。從實驗結(jié)果來看,該研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》(《具有語義對齊的多級表征學習用于參考視頻對象分割》)具有較高的推理速度,也因此被頂會CVPR收錄。
在視覺研究中,團隊發(fā)現(xiàn)業(yè)界最流行的隨機采樣方法,PK采樣器,對深度度量學習來說信息量不足且效率不高,為此提出一種可用于大規(guī)模深度度量學習的高效的小批量采樣方法,稱為圖采樣(Graph Sampling)。該模型的思想是在每個epoch開始時為所有類別構(gòu)建最近鄰關(guān)系圖。然后,每個小批量由隨機選擇的類別和其最近鄰組成以便學習信息豐富的示例。該方法顯著提高了重新識別率,大大縮短了訓練時間。該技術(shù)為通用技術(shù),可用于圖像檢索、識別等。該技術(shù)主要目的是提升效率,這是在當下高負荷多信息的智慧領(lǐng)域必不可少的技術(shù),快速分析識別能夠在一些圖像檢索和識別應(yīng)用快速滿足用戶需求。該研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》(《基于圖采樣的深度度量學習用于可泛化的行人重識別》)同樣收錄于今年的CVPR。
3)解決圖像標注問題
數(shù)據(jù)標注是一個重要的過程,傳統(tǒng)人工數(shù)據(jù)標注費時費力。團隊提出了一種新技術(shù)以更高效地解決背后的問題。該研究被收錄于今年的CVPR中,標題為《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》(《視覺任務(wù)中無監(jiān)督域適應(yīng)的類別對比》)。團隊提出了一種新的類別對比技術(shù)(CaCo),該技術(shù)在無監(jiān)督域適應(yīng)(UDA)任務(wù)的實例判別之上引入了語義先驗,可以有效地用于各種視覺UDA任務(wù)。該技術(shù)構(gòu)建了一個具有語義感知的字典,其中包含來自源域和目標域的樣本,每個目標樣本根據(jù)源域樣本的類別先驗分配到一個(偽)類別標簽,以便學習與UDA目標完全匹配的類別區(qū)分但域不變的表征。與當下最先進的方法對比,簡單的CaCo技術(shù)可以實現(xiàn)更優(yōu)越的性能表現(xiàn),也可以成為現(xiàn)有UDA方法的補充,推廣到其他機器學習方法中去,如無監(jiān)督模型適應(yīng),開放/部分集適應(yīng)等。該技術(shù)解決了傳統(tǒng)監(jiān)督學習需要大量人工標注的問題,比現(xiàn)有技術(shù)擁有更高的效率。
4月9日,人工智能物聯(lián)網(wǎng)(AIoT)企業(yè)特斯聯(lián)宣布完成 D 輪 20 億人民幣融資交割。
近日,巴林王國工業(yè)和商業(yè)大臣法赫魯(H.E. Abdulla A. Fakhro)率領(lǐng)巴林王國高級政...
作為中國首倡并主辦的層級最高、規(guī)模最大的多邊外交活動,經(jīng)過十年發(fā)展,“一帶一路”倡議已成為國際合作的...
近日,特斯聯(lián)與國家電投集團江西電力有限公司簽署全面戰(zhàn)略合作協(xié)議,成立合資公司
作為市場主體的企業(yè)是中國經(jīng)濟發(fā)展的基礎(chǔ),而采購作為鏈接企業(yè)內(nèi)外部和產(chǎn)業(yè)上下游的關(guān)鍵環(huán)節(jié),更是反映整個...
俗話說“兵馬未動,糧草先行”,各類物資的及時就位是企業(yè)順利開工的重要保障。
2月7日,以“為美好,去舍得”為主題的舍得酒業(yè)2025年度工作會議在中國白酒之鄉(xiāng)射洪召開。
2025年恰逢中泰兩國建交50周年,多年來,雙方秉持“中泰一家親”的深厚情誼,在政治、經(jīng)濟、文化等各...
隨著特斯拉人形機器人Optimus量產(chǎn)計劃臨近,以及國內(nèi)智元機器人、宇樹機器人等大放異彩,全球科技界...
這個春節(jié),線下賞景點、線上購特產(chǎn),已成為越來越多消費者的選擇。
投資家網(wǎng)(www.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。