2024 年的 CVPR 会议在美国西雅图举办,成为了该会议历史上最大规模和最多参与人数的一届,共有 1.2 万人参与。本届会议共有 35691 位注册作者,提交了 11532 篇论文,其中 2719 篇论文被接收,录用率为 23.6%。与去年相比,论文数量增加了 20.6%,但录用率略有下降。
会议颁发了两项最佳论文奖和两项最佳学生论文奖,其中谷歌研究院团队的《Generative Image Dynamics》和由多所机构共同发表的《Rich Human Feedback for Text-to-Image Generation》获得了最佳论文奖。此外,会议还讨论了视觉基础模型和图像视频生成等热点话题,以及机器遗忘、3D 视觉和自主系统等领域的最新研究进展。
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号: AIyanxishe2备注行业岗位。
MainFunc获6000万美元种子轮融资:由前百度高管(原小度科技CEO景鲲和CTO朱凯华)创立的MainFunc,推出旗下首款AI Agent搜索产品Genspark。已在一笔超额认购的种子轮融资中筹集了6000万美元,本轮融资由蓝驰创投领投,对这家目前尚未盈利的初创企业的估值为2.6亿美元。
Point72筹备专注于AI行业的新对冲基金:据悉,Steve Cohen的Point72 Asset Management寻求为一支新的专注于AI的选股对冲基金筹集约10亿美元。该基金将在全球范围内押涨、押跌AI硬件和半导体公司。这将是Point72几十年来第一支新对冲基金。
英伟达收购软件初创公司Shoreline:Shoreline.io由亚马逊网络服务前高管创办。对Shoreline的估值约为1亿美元。
Constructor 筹集2500 万美元 B 轮融资:Constructor使用语义搜索和人工智能技术,提供准确和个性化的搜索结果,并支持图像、内容和语音搜索产品。本轮融资由 Sapphire Ventures 领投。
Omi 筹集1400 万美元种子轮融资:Omi 利用人工智能帮助品牌创建 3D 视觉资产,包括静止图像和视频。本轮融资由 Dawn Capital 领投。
Promaxo获战略投资:Promaxo是一家美国医学影像服务提供商,专注于医学影像,机器人和AI技术。本次投资由Zynext Ventures投资。
百奥几何完成Pre-A轮融资:百奥几何是一家大分子药物研发开源机器学习平台提供商,用于大分子药物研发。本轮融资由将门创投领投,智谱AI、盛景嘉成跟投,老股东高榕创投持续追加投资。
环天智慧完成B轮融资:环天智慧以遥感应用、云计算、大数据、物联网、人工智能等信息技术为依托,推出“天空地一体化”与“星-云-网-端”的系统服务架构。投资方为鼎晖百孚。
先楫半导体完成近亿元B轮融资:先楫半导体是一家国产高性能微控制器厂商,本轮融资由天堂硅谷资本领投,天津永钛海河、杭州元琰股权投资基金及三旺奇通等跟投。融资将用于加速在智能驾驶、机器人、边缘侧AI芯片等领域的开拓。
(欢迎添加微信 AIyanxishe2 ,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
江苏鲲鹏・昇腾生态创新中心首席运营官王陶表示,昇腾集群是国内唯一已完成训练千亿参数大模型的技术路线。该芯片在训练效率层面最高可达英伟达 1.1 倍。“在跟英伟达 A100(指 0.8 倍)的确还有一定差距,但在大模型训练这一块已跟英伟达 A100 芯片没有明显差距。特别是在万卡算力集群,包括鲲鹏云脑、科大讯飞这一块都经过了市场检验。”
“风清”是人工智能全球中短期预报系统,“风雷”是人工智能临近预报系统,两个模型由中国气象局联合清华大学组建攻关团队构建。“风顺”是人工智能全球次季节—季节预测系统,由中国气象局联合复旦大学和上海科学智能研究院基于人工智能方法构建。
该模型基于模型生长和损失预测等技术,仅使用了业界普通训练方案 9%的算力资源, 112 台 A800 服务器,用 4 个月完成 3 个模型总计 2.3T tokens 的训练。TeleFLM 系列模型已经全面开源了 52B 版本,开源模型下载量过万,积累超 40 万用户。Tele-FLM-1T 版本也即将开源。
新版平台能够在短时间内自动生成逼真的 3D 数字人,并提供了极速和精品两种克隆选择,以满足不同需求。极速克隆可在半小时内完成,适用于效率追求的场景;精品克隆则能够 1:1 还原真人,适合对真人还原要求较高的场合。此外,曦灵平台还推出了音色克隆功能,用户仅需 30 秒的录音即可生成专属音色。
在超长图文理解上,橙篇可实现超长文本无损理解,支持用户一次性上传100个多种格式、单个最大200MB的文件,并支持基于上传内容进行快速总结、问答和创作。
商汤科技披露今年50篇论文入选CVPR,其中还有9篇被录用为Oral、Highlight。论文涉及自动驾驶、机器人等前沿方向。
OpenAI 公司宣布与基因检测公司 Color Health 合作,将使用 GPT-4o 模型开发 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,识别缺失的诊断结果,并创建量身定制的工作计划,让医疗服务提供者能够就癌症筛查和治疗做出循证决策。
Symphony包括数字化身、翻译工具、AI 助手等。品牌可以从一系列基于真实演员的“库存化身”中进行选择,或者创建自定义化身,作为虚拟品牌代表 。此外,TikTok 还推出了“全球覆盖翻译”功能。这是一种新的 AI 配音工具,可以自动转录、翻译和配音视频,支持 10 多种语言,帮助品牌在全球范围内扩展内容。
用户可以直接从公司的 Slack 中提取知识,无需离开当前工作流程,减少了工具和窗口切换的需要。已在 X 平台上发布,旨在提高用户的工作效率。目前,Slack 的集成已经开始逐步推出,Google Drive 和其他未公开的集成功能也在推进中。
苹果暂停了下一代 Vision Pro 的开发,转而专注于 2025 年底发布更便宜的机型。或将推出名为N109的低价Vision产品,重量是 Vision Pro 的 1/3,价格或与高端iPhone差不多,或将保留高端显示屏,由视涯科技供应。设备摄像头更少、头带更简单、扬声器更小。
重组后Reality Labs 将主要分为两个部分,一个是元宇宙:该部门涵盖 Quest 头显系列、Horizon(Meta 的社交网络)以及相关技术。另一个是可穿戴设备:该新部门包括 Meta 其余的硬件业务,例如与 Ray-Ban 合作的智能眼镜。
MicDrop 是一款 AI 人声插件,使用艺术家自己的声音数据进行训练,可创建高保真人声模型,保留艺术家所有权,用于专属创作,不向公众开放。它将于今年夏天推出,兼容所有主要的 DAW,环球音乐称它可以实现多种声音转换。
MLX 项目使用 MPI 分布式计算,通过 Thunderbolt 4 电缆来连接主控机和多台 Mac 设备,可以实现高效并行计算,适合家庭环境下训练 AI 等场景。苹果公司此前曾探索开发出类似的 XGrid 项目,串联多台 Mac 设备实现并行计算,不过主要面向企业和政府机构,对于消费者和业余爱好者并不友好。
Hinton对这家初创公司给予了较高的评价,称该公司及其使命给自己留下了深刻印象。“他们利用 AI 为新材料设计过程提速,以应对人类最紧迫的挑战之一 —— 气候变化。”据悉,CuspAI 公司由剑桥大学创立,该公司计划利用搜索引擎的功能按需识别新型建筑材料所需的特性。
Epochai 研究报告指出目前人类公开的高质量文本训练数据集约有 300 万亿个 tokens,但随着大模型的胃口增大,这些数据可能很快将被消耗殆尽。例如 Meta 的 Llama3 模型在 8B 版本上的过度训练竟然达到了惊人的 100 倍。
Epochai 提出了四种获取新训练数据的方法:合成数据、多模态和跨领域数据学习、私有数据的使用以及与真实世界实时交互学习。旨在避免 AI 界的 “数据荒”,并为 AI 模型的持续发展提供数据支持。
ACM SIGGRAPH共评选出了5篇最佳论文、12篇荣誉提名,并延续去年的传统将时间检验奖颁给了2012年和2013年发表的4篇论文。上海科技大学、华中科技大学、香港中文大学等国内机构榜上有名。
BCG报告称生成式AI正在撼动就业市场:报告预测生成式 AI 将在未来十年内对全球经济产生至少 2.2 万亿至 3.7 万亿美元的经济影响,同时对某些重复性高、创造性低职位带来威胁,但也将创造新的职位,推动人才对技能进行重新塑造和学习。
三星电子将于明年推出配备人工智能的家电:三星电子正在开发带有大型语言模型的集成家电产品,目标在2025年发布。
Genspark 是一个免费的 AI 代理搜索引擎,通过专业的 AI 代理为用户查询研究并生成所谓的 Sparkpages。这些页面综合可靠信息,提供更有价值的结果,为用户节省时间。创始人景鲲强调,Genspark 与传统搜索引擎不同,更像是一群快速为用户找到所需答案的有用 AI 伙伴。Genspark 旨在消除广告、诱导内容和偏见结果,提供干净、高质量的信息,让用户从一个地方就能访问所需信息,节省时间。
ElevenLabs Texts to Sounds Effects API ,展示了其通过 AI 为视频添加声音效果的能力。用户可以上传视频,客户端每秒提取 4 个帧,并将这些帧和提示发送给 GPT-4o,以创建自定义的文本到声音效果提示。随后,使用 ElevenLabs Text to Sounds Effects API 根据提示生成声音效果,并利用 ffmpeg.wasm 在客户端将视频和音频合并,生成可下载的单个文件。
Hedra Labs 发布了能够生成表现力强的说话、唱歌和说唱角色的基础模型 Character-1 的研究预览版,该模型可在桌面和移动设备上使用,预览版提供无限视频时长,但开放预览版限制为 30 秒视频。如果 H100 供应充足,模型能在每 60 秒生成 90 秒的视频。模型具有生成角色具有强烈的表现力的特点,其愿景是通过构建基础模型并将其融入产品中,激发人类下一代的故事讲述能力,同时还宣布了即将推出的 “Worlds” 功能,允许用户构建虚拟世界。
GenType 是一个在线工具,它利用 Imagen 2 API 为用户提供创建自定义字母表的能力。用户可以通过描述来定制字母的风格,例如使用星座地图、未来科幻飞船、银色管道等元素。GenType 提醒用户创作时要尊重他人权利,鼓励用户分享反馈帮助改进 AI。
Will Brown发布 《GenAI Handbook》这本书被誉为 GenAI 领域最前沿发展的开源教科书,汇聚了自 ChatGPT 发布以来的 18 个月里,GenAI/LLM 领域的发展和系统知识指南。分为 9 个部分,参考了顶尖的 Blog、论文、Youtube 视频和在线课程,为读者提供了一个清晰了解 GenAI 发展的脉络。
6月28日,「Attent!on」深圳站将聚焦 软件与硬件的融合,以「AI+跨境+硬件=?」为主题,探讨AI硬件的机会和挑战。
云启资本联合雷峰网(公众号:雷峰网)将携手大疆早期孵化投资人、长江商学院金融学教授甘洁创办的创新企业赋能组织知行研习院,与来自华为、腾讯、科大讯飞、Kickstarter、元生智能、火火兔、时空壶、蜂巢科技等知名公司的资深人士展开深度交流。
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号: AIyanxishe2备注行业岗位。