AI視頻理解再上一層樓MiniGPT4-Video面世!多模態概念股有望受益
人工智能領域又有新進展。
可理解視頻內容的MiniGPT4-Video面世
人工智能領域又有新進展。隨著MiniGPT4-Video的問世,視頻理解這項難題有了顯著的突破。
據報道,4月4日,KAUST和哈佛大學研究團隊發表的論文中提出MiniGPT4-Video框架——專為視頻理解而設計的多模態大模型。該模型能夠處理時間視覺和文本數據,使其能夠熟練地理解視頻的復雜性。MiniGPT4-video不僅考慮視覺內容,還集成了文本對話,允許模型有效地回答涉及視覺和文本組件的查詢。
例如,MiniGPT4-Video能夠為宣傳視頻配出標題、宣傳語;也可以對視頻的處理過程進行理解。MiniGPT4-Video甚至可以根據視頻內容進行詩歌創作、內容解說等。這意味著,MiniGPT4-Video在處理復雜視頻內容時表現亮眼,提供高質量的輸出。
據悉,該模型優于現有的最先進的方法,在MSVD、MSRVTT、TGIF和TVQA基準上分別提高了4.22%、1.13%、20.82%和13.1%,模型和代碼已公開。但目前的缺陷在于上下文窗口限制。下一步,團隊將研究模型能力擴展到處理更長視頻的能力。
多模態概念股出爐
AI視頻已然成為多模態LLM發展的大趨勢。總的來說,MiniGPT4-Video的出現是AI在視頻理解領域邁出的一大步。隨著未來研究的不斷深入,有研究人員認為,MiniGPT4-Video將在多模態人工智能領域發揮更加重要的作用。
據證券時報·數據寶不完全統計,A股市場的多模態大模型概念股共計13只。從凈利潤變動來看,大華股份和萬興科技2023年凈利潤同比翻倍,增幅依次為217.1%、112.1%。另有拓維信息、佳都科技、北信源等實現扭虧為盈。
近期,大華股份在互動平臺表示,公司在通信能力方面,圍繞網絡連接技術、數據交換技術和前沿網絡技術三個方面,打造融合連接能力體系,通信和連接技術的持續進步,有助于支撐物聯網向視聯網升級。公司發布了星漢大模型,融合圖像、點云、文本、語音等多模態數據,實現了準確性和泛化性的躍升,大幅提升視覺解析能力。
萬興科技旗下“天幕”大模型以音視頻生成式AI技術為基礎,由視頻、音頻、圖片和語言大模型組成,涵蓋文生視頻、文生3D視頻、視頻AI配樂、數字人播報等近百項音視頻原子能力,同時支持全球不同語言,相關能力已在WondershareFilmora、WondershareVirbo等海外產品上規模化商用。