前幾天,谷歌在 I/O 2025 大會上正式發布了其最新一代 AI 視頻生成模型 Veo 3,在生成高質量視頻的同時首次實現了音畫同步。對于 Veo 3 的震撼效果,有人高度評價稱,「它會是不亞于 OpenAI Sora 的跨時代產品」,標志著 AI 視頻進入到了真正的「有聲時代」。
從中可以發現,雖然當前 AI 社區已有的大模型已經足夠驚艷,但得益于架構的創新、算力集群的投入,仍然會「卷」出一些新東西來。比如視頻生成領域,從最初的無聲進化到如今的有聲,提升明顯;再比如多模態領域,逐漸朝著理解與生成大一統的方向演進。
因此,為讓從業者全面了解 AI 社區涌現的最新創新成果和發展趨勢,機器之心計劃 6 月 8 日在北京舉辦「CVPR 2025 論文分享會」,圍繞著多模態、視頻生成等熱門主題邀請頂級專家、論文作者與現場參會觀眾共同交流。
作為計算機視覺領域中最重要的國際會議之一,CVPR 具有極高的含金量,每年都會吸引大量研究機構和高校參會。今年,CVPR 2025 共收到 13008 份論文投稿,最終接收 2878 篇論文,整體接收率為 22.1%。
作為一場為國內 AI 人才打造的盛會,本次論文分享會設置了 Keynote、論文分享、圓桌對話、Poster 交流及企業展位交流等豐富環節。今天,論文分享會的全日程、Keynote 分享嘉賓、演講主題以及圓桌嘉賓正式公布,感興趣的讀者可以繼續掃描文中二維碼報名,截止日期到 6 月 7 日 12:00。
Keynote 嘉賓及演講主題
【上午 Keynote】高林 基于混合表達與生成模型的可視媒體合成與編輯方法
分享人介紹:高林,中國科學院計算技術研究所研究員、中國科學院大學崗位教授。研究方向為計算機圖形學、三維計算機視覺。在 SIGGRAPH、TPAMI、TVCG 等期刊會議發表論文 100 余篇。現任或者曾任亞洲圖形學學會秘書長,作為項目負責人承擔國家重點研發計劃、基金委優青等項目,曾獲得亞洲圖形學會青年學者獎等獎勵。
分享摘要:在本次報告中,我們將分析最近幾何表征發展的特點,分析內在的規律,介紹幾何表征的挑戰和相關應用。介紹高斯潑濺的最新進展,包括如何對高斯潑濺進行大尺度變形、解耦和重光照,以及如何對基于高斯潑濺表征的數字人進行實時重光照。 同時,生成模型不僅在影響三維重建的方法,還給渲染帶來了新的求解思路。其中,視頻生成模型給生成式渲染帶來了全新的思路。我們將介紹基于生成模型的視頻編輯與合成方法,將介紹基于線稿交互的視頻編輯方法,和基于點云幾何先驗的大視角視頻編輯與合成方法。
【下午 Keynote】黃雷 從表征和學習視角議多模態大模型的統一之路
分享人介紹:黃雷,北京航空航天大學人工智能學院副教授。本科和博士均畢業于北京航空航天大學,曾在美國密歇根大學訪學和阿聯酋 IIAI 工作。研究主要集中在深度神經網絡架構、訓練技術及理論分析,出版首部關于 DNNs 中 Normalization 技術的英文專著,主導訓練發布 TinyLLaVA 系列模型及 TinyLLaVA Factory 開源項目,曾以一作兼通訊作者身份獲 CVPR 2020 最佳論文提名獎。
分享摘要:大語言模型以離散化詞匯表示和上下文建模學習統一了各類自然語言理解和生成任務。過去幾年,這類統一建模思想也蔓延至視覺、語音以及其它非結構化類數據,促進了「統一」的多模態大模型發展。本報告首先從表征和學習視角,以抽象的形式探討了條件概率模型在建模任意問題的可行性,然后以統一建模為指導思想,概述了近年來語言和多模態建模的主要發展路線,最后介紹了報告人課題組在針對該議題研究中一些基礎問題的研究進展和相關展望。
圓桌討論嘉賓
這場分享會中,我們特別設置了一場「邁向理解與生成統一的多模態大模型」主題圓桌,邀請了三位專家學者現場探討。
主持人:張群英 ICT 產業觀察家,黃大年茶思屋科技網站總編
對話嘉賓:
黃雷,北京航空航天大學人工智能學院副教授。本科和博士均畢業于北京航空航天大學,曾在美國密歇根大學訪學和阿聯酋 IIAI 工作。研究主要集中在深度神經網絡架構、訓練技術及理論分析,出版首部關于 DNNs中Normalization 技術的英文專著,主導訓練發布 TinyLLaVA 系列模型及 TinyLLaVA Factory 開源項目,曾以一作兼通訊作者身份獲 CVPR 2020 最佳論文提名獎。
黃思遠,北京通用人工智能研究院(BIGAI)研究科學家、通用視覺實驗室主任。他在加州大學洛杉磯分校(UCLA)統計系獲得博士學位,導師是朱松純教授。他的研究旨在構建一個能夠理解和與三維環境交互的類人通用智能體。為實現這一目標,他在以下方向做出了研究貢獻:(1)開發可泛化的視覺表征以用于三維重建和語義落地,(2)建模并模仿人類與三維世界的復雜交互,(3)構建擅長與三維世界和人類交互的具身智能體。他的研究發表于五十余篇會議及期刊論文,并曾獲得 ICML Neural-Symbolic Workshop 最佳論文,UCLA 優秀博士論文等獎項。他致力于開發能理解三維物理世界的具身智能體和視覺機器人。
張拯,Sand.AI 聯合創始人,加入 Sand.AI 之前,曾在 MSRA 視覺計算組任職。他是 Swin Transformer,SimMiM,RelationNetwork,SoftTeacher 等工作的主要作者之一。其中 Swin Transformer 獲得 ICCV Best Paper(Marr Prize)。
Poster
在本次論文分享會中,將會有一批論文作者進行論文分享與 Poster 展示,感興趣的讀者可以通過下圖了解具體信息:
此次論文分享會也將在機器之心視頻號以及黃大年茶思屋科技網站兩個平臺進行直播,歡迎大家關注、預約。
合作伙伴介紹
黃大年茶思屋科技網站
黃大年茶思屋科技網站是致力于推動科學與技術交流的開放平臺。我們匯聚全球科學家、研究人員和技術專家,共同探討最前沿的學術話題,分享最新的科研成果,激發創新思維的火花。在這里,您可以看到學術熱點、精選論文、學術峰會、技術難題、專利、開源和科技賽事等內容。茶思屋科技網站,匯聚全球科研智慧,推動科技創新,讓科技百花園更加繁榮。
網址:https://www.chaspark.com
騰訊青云計劃
騰訊青云計劃聚焦 AI 大模型等十大技術領域,面向全球招募頂尖實習生和畢業生,提供上不封頂的職級薪酬、全面定制化的培養方案,并開放核心業務工作機會、解鎖前瞻性技術課題培養中國未來的科技人才。
今年騰訊將繼續深度參與多場全球頂級學術會議,并組織群星未來之夜系列活動。關注「騰訊招聘」公眾號了解相關報名信息。
加入青云計劃,不負少年意氣!
青云官網:https://join.qq.com/qingyun.html
京東 TGT 計劃
TGT (Tech Genius Team)是由京東發起的「頂尖青年技術天才計劃」,面向全球高校本碩博在校生、應屆生及畢業兩年內的技術人才開放招募。
TGT 計劃聚焦技術突破和有社會價值的前沿課題,依托京東在零售、物流、科技、健康、工業、產發等領域豐富的產業布局,研究涵蓋包括多模態大模型與應用、機器學習、搜索推薦廣告、空間與具身智能、高性能與云計算、大數據、AI Infra、安全等方向。
除了不設上限的薪資以外,京東還將提供完備的福利體系、充足的算力資源保障、「技術導師 + 業務導師 + 成長導師」三導師的培養機制,保障 TGT 能夠心無旁騖投身技術突破并迅速成長為領軍人物。
TGT 網址:https://campus.jd.com/home#/talentProject?tabKey=3
機器之心聯合多個合作伙伴,成功舉辦云帆?ICLR 2025 AI Talent Meetup、CVPR 2024 論文分享會、NeurIPS 2024 論文分享會、ACL 2024 AI Talent 晚宴等多場活動,助力合作伙伴吸納人才,提升品牌影響力。
如您 / 您所在的企業對參與「機器之心 2025 學術頂會活動」感興趣,歡迎參與合作及共建,具體合作方式歡迎聯系:
- 陳女士
- 182 0621 8056
- chenyinyi@jiqizhixin.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.