摘要:近日,從杭州一家知名大模型公司聯匯科技獲悉,趙天成博士帶領OmAILab團隊成功把DeepSeekR1從純文本領域成功遷移到了視覺語言領域
近日,浙江大學博導趙天成博士帶領Om AI Lab團隊成功把DeepSeek R1從純文本領域成功遷移到了視覺語言領域,這是DeepSeek R1模型首次突破到視覺推理層面。該模型為VLM-R1視覺語言模型,已經具備精確的視頻理解和推理能力,證實了R1方法的通用性,為多模態模型的訓練打開了想象空間。
這個項目的靈感來自去年DeepSeek開源的那個R1方法,靠著GRPO(Generative Reward Processing Optimization)強化學習方法,在純文本大模型上取得了驚人的效果。
現在,VLM-R1團隊直接把它應用到了視覺語言模型上,打開了一扇新的大門!
#VLM-R1驗證結果驚艷#
這個項目的團隊在 Qwen2.5-VL 的基礎上,同時對比了 R1 和傳統的 SFT 方法。結果相當驚艷:
1、穩定性拉滿:R1 方法在各種復雜場景下都能保持穩定的高性能,這在實際應用至關重要!
2. 泛化能力卓越:更讓人震驚的是,在領域外的測試數據上,隨著訓練步數增加,傳統 SFT 模型的性能開始下滑,而 R1 模型卻能持續提升!這意味著 R1 方法幫助模型真正“學會”了理解視覺內容,而不是簡單地記憶!
(訓練和測試領域的差異對比)
(泛化性對比,綠線是VLM-R1,在領域外泛化性顯著更優)
3、上手超簡單:VLM-R1項目團隊還貼心地提供了完整的訓練和評估流程,四步就能開始訓練,對開發者十分友好。
#小編親測#之后,在此分享一個實際案例,結果讓人意外
圖片里展示了一桌子豐盛的美食,包括各種蔬菜、面餅和點心。針對圖片,我們向模型提出了一個問題:“在圖片中找出蛋白質含量最高的食物”。
模型不僅回答得準確:
“圖片中展示了桌上的各種菜品,包括蔬菜、面餅和點心。從蛋白質含量來看,面餅或面點可能含量最高,因為它們通常由全谷物制成,面粉中含有蛋白質。雖然蔬菜也含有蛋白質,但比起這些主食來說含量較少。”
更厲害的是,它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅!
這種精確的視覺理解能力和推理能力,讓人印象深刻!
完美展示了 VLM-R1 在實際應用中的優勢:
- 準確的視覺識別能力
- 專業的知識推理能力
- 清晰的文本表達能力
#全新思路#
作為一個AI領域的觀察者,VLM-R1的出現也為開發者和行業提供了許多新的思路,比如:
1、證明了R1方法的通用性,不止文本領域玩得轉;
2、為多模態模型的訓練提供了新思路;
3、或許能夠引領一種全新的視覺語言模型訓練潮流;
#完全開源#
最棒的是,這個優秀的項目完全開源!
項目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)
對視覺語言模型感興趣的同學,強烈建議去看看這個項目。說不定你的下一個突破性研究就從這里開始!
最后,期待看到更多開發者加入進來,一起推動多模態 AI 技術的發展。如果你也對這個項目感興趣,歡迎加群討論!
12月4日,正元地理信息集團股份有限公司(以下簡稱“正元地信”)在北京舉辦產品發布會,正式發布面向雙...
2024年11月,制造業采購經理指數、非制造業商務活動指數和綜合PMI產出指數分別為50.3%、50...
投資家網(www.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。