AI Daily
🗒️AIDaily 029/100
00 分钟
2024-4-28
2025-1-22
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

AIDaily 029/100

 
🖼️
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。 但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。 今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。 人们会被自己热爱的事物改变,而没有人因为给予而贫穷。

Vol.029

by Rocket

🚀 生数科技与清华大学联合发布中国首个高动态视频大模型 Vidu 支持长达 16 秒 1080P 视频直接生成 在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学发布了中国首个长时长、高一致性、高动态性的视频大模型 Vidu。
  • Vidu 采用 U-ViT 架构,这是全球首个融合了 Diffusion(扩散概率模型)与 Transformer 的架构,由生数科技团队自主研发。
  • 该模型支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容,能够根据文本描述直接生成视频。
  • Vidu 的生成方式是“一步到位”,即文本到视频的转换是直接且连续的,基于单一模型端到端生成,无需多步骤处理。
  • 生数科技团队开源了基于 U-ViT 架构的多模态扩散大模型 UniDiffuser,这是全球首个完成大规模可扩展性验证的融合架构模型。
生数科技还推出了“Vidu 大模型合作伙伴计划”,旨在邀请产业链上下游企业、研究机构共同构建合作生态。该公司由来自清华大学人工智能研究院的团队创立,已完成数亿元融资,投资方包括启明创投、蚂蚁集团等知名机构。
 
🍏 苹果发布8款新AI模型,推进设备端AI发展 苹果公司终于在人工智能领域发力,向开源人工智能平台 Hugging Face hub 提交了八款新的人工智能模型,这些模型以其较小的规模而与众不同。
关键点:
  • 与需要在云端服务器上运行的大型模型不同,苹果的AI模型专注于更小、更高效的设计,能够在笔记本电脑和智能手机等设备上运行。
  • 较小的模型在保护用户隐私方面具有优势,因为它们可以在设备上处理数据,而不需要将数据上传到云端。
  • 苹果的这些新模型被称为 OpenELM(开源高效语言模型),它们是开源的,并且对所有人开放,这对苹果来说是一次不寻常的开放举措。
  • 苹果首席执行官蒂姆·库克曾表示,公司正在研究将在年内晚些时候推出的生成式AI计划,而这些小型模型可能是未来计划的预兆。
苹果的这一动作显示了其在AI领域的新动向,尤其是在设备端AI应用方面的雄心。通过提供开源模型,苹果不仅推动了技术的普及,也为开发者社区提供了新的可能性。
 
📱 苹果与 OpenAI 重启谈判,计划为下一代 iPhone 添加生成型 AI
据彭博社报道,苹果公司与 OpenAI 重启了会谈,商讨在下一代 iPhone 中集成生成型人工智能技术。这项技术能够根据用户的指令生成文本、图像和其他媒体内容,预计将极大丰富 iPhone 用户的交互体验。
生成型 AI 的加入可能会带来以下潜在影响:
  1. 个性化体验:用户可以利用生成型 AI 进行个性化的内容创作,如定制化的图像和音乐。
  1. 增强的交互性:AI 可以提供更加智能的语音助手功能,更好地理解并执行用户的指令。
  1. 内容创作的辅助:对于艺术家和设计师来说,生成型 AI 可以作为一个强大的工具,帮助他们快速生成创意原型。
  1. 安全性和隐私:苹果历来重视用户隐私,任何 AI 技术的集成都将伴随着严格的数据保护措施。
若谈判成功,下一代 iPhone 可能会成为市场上首批搭载先进生成型 AI 技术的智能手机之一,这将是苹果在 AI 领域的一次重大进展,并可能引领智能手机行业的新趋势。
 
🎵 SVA:利用多模态语言大模型实现视频的语义一致音频生成 SVA(Semantically consistent Video-to-Audio Generation)是一项创新技术,它能够基于单个关键帧和文本提示为视频生成相应的音效和背景音乐。
  • SVA 通过理解视频的关键内容和用户提供的文本提示,创造出与视频内容语义一致的音频。
  • 这项技术可以增强视频观看体验,为无声或需要额外音效支持的视频内容提供自然的音频效果。
  • 利用多模态语言大模型,SVA 能够处理和融合视觉信息(关键帧)和文本信息,生成与视频情境相匹配的音频。
 
🔍 GScream:3D场景中的对象移除新方法 GScream 是一种新提出的3D场景对象移除方法,它利用高斯溅射(Gaussian Splatting)技术来更新场景的辐射场,从而实现对象的移除。这种方法的特点是能够在移除对象的同时,保持场景的几何一致性和纹理的连贯性。
  • 高斯溅射:GScream 通过高斯溅射来更新辐射场,这是一种处理3D场景数据的技术,可以在不破坏场景整体结构的前提下,对特定区域进行修改。
  • 几何一致性:在移除对象后,GScream 能够维持3D场景的几何结构不变,确保移除操作后的视觉效果自然,不会产生几何上的异常。
  • 纹理连贯性:该方法还能保持场景纹理的连贯性,意味着移除对象后,周围的纹理能够平滑过渡,避免了突兀的边缘或不匹配的纹理。