AI視頻理解再上一層樓MiniGPT4-Video面世！多模態概念股有望受益

時間：2024-04-08 11:22:18 小采時事

推薦文章

人工智能領域又有新進展。

可理解視頻內容的MiniGPT4-Video面世

人工智能領域又有新進展。隨著MiniGPT4-Video的問世，視頻理解這項難題有了顯著的突破。

據報道，4月4日，KAUST和哈佛大學研究團隊發表的論文中提出MiniGPT4-Video框架——專為視頻理解而設計的多模態大模型。該模型能夠處理時間視覺和文本數據，使其能夠熟練地理解視頻的復雜性。MiniGPT4-video不僅考慮視覺內容，還集成了文本對話，允許模型有效地回答涉及視覺和文本組件的查詢。

例如，MiniGPT4-Video能夠為宣傳視頻配出標題、宣傳語；也可以對視頻的處理過程進行理解。MiniGPT4-Video甚至可以根據視頻內容進行詩歌創作、內容解說等。這意味著，MiniGPT4-Video在處理復雜視頻內容時表現亮眼，提供高質量的輸出。

據悉，該模型優于現有的最先進的方法，在MSVD、MSRVTT、TGIF和TVQA基準上分別提高了4.22%、1.13%、20.82%和13.1%，模型和代碼已公開。但目前的缺陷在于上下文窗口限制。下一步，團隊將研究模型能力擴展到處理更長視頻的能力。

多模態概念股出爐

AI視頻已然成為多模態LLM發展的大趨勢。總的來說，MiniGPT4-Video的出現是AI在視頻理解領域邁出的一大步。隨著未來研究的不斷深入，有研究人員認為，MiniGPT4-Video將在多模態人工智能領域發揮更加重要的作用。

據證券時報·數據寶不完全統計，A股市場的多模態大模型概念股共計13只。從凈利潤變動來看，大華股份和萬興科技2023年凈利潤同比翻倍，增幅依次為217.1%、112.1%。另有拓維信息、佳都科技、北信源等實現扭虧為盈。

近期，大華股份在互動平臺表示，公司在通信能力方面，圍繞網絡連接技術、數據交換技術和前沿網絡技術三個方面，打造融合連接能力體系，通信和連接技術的持續進步，有助于支撐物聯網向視聯網升級。公司發布了星漢大模型，融合圖像、點云、文本、語音等多模態數據，實現了準確性和泛化性的躍升，大幅提升視覺解析能力。

萬興科技旗下“天幕”大模型以音視頻生成式AI技術為基礎，由視頻、音頻、圖片和語言大模型組成，涵蓋文生視頻、文生3D視頻、視頻AI配樂、數字人播報等近百項音視頻原子能力，同時支持全球不同語言，相關能力已在WondershareFilmora、WondershareVirbo等海外產品上規模化商用。

国际金融网_每日财经新资讯网

AI視頻理解再上一層樓MiniGPT4-Video面世！多模態概念股有望受益