AI Daily
🗒️AIDaily 054/100
00 分钟
2024-6-17
2025-1-22
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

AIDaily 054/100

 
🖼️
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。 但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。 今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。 人们会被自己热爱的事物改变,而没有人因为给予而贫穷。

Vol.054

by Rocket

探索·AI大事件
🎨 Runway Gen-3 Alpha:开创性多模式AI模型
Runway推出Gen-3 Alpha模型,在大规模多模式训练的新基础设施上训练,相较于Gen-2,在保真度、一致性和动作上实现显著提升。
  • 技术提升:Gen-3 Alpha在视频和图像上联合训练,为文本到视频、图像到视频和文本到图像工具提供动力。
  • 控制模式:支持运动画笔、高级摄像机控制、导演模式等,以及即将推出的更精细控制工具。
  • 安全特性:引入新的保护措施,包括改进的内部视觉审核系统和C2PA出处标准。
  • 细粒度时间控制:通过高描述性、时间密集的字幕训练,实现场景元素的富有想象力过渡和精确关键帧。
  • 逼真人类生成:擅长生成具有广泛动作、手势和情感的富有表现力的人类角色,开拓叙事新机会。
  • 艺术家合作:由研究科学家、工程师和艺术家的跨学科团队合作训练,诠释多样风格和电影术语。
  • 行业定制:与领先娱乐和媒体组织合作,创建Gen-3的定制版本,满足特定的艺术和叙事要求。
Gen-3 Alpha的发布标志着AI在创意产业中应用的一个新里程碑,为艺术家和企业提供了强大的新工具。
我把官网的45个视频+Prompt全部整理了,回复”G“可以获取全部列表。
 
探索·AI新研究
🐀 DeepMind创建具有AI大脑的虚拟老鼠
DeepMind和哈佛大学的研究人员创建了一个由AI神经网络驱动的虚拟老鼠,能够极其精确地模仿真实大鼠的敏捷动作和神经活动。
  • 生物力学模型:研究人员开发了生物力学上逼真的数字大鼠模型。
  • AI大脑训练:AI大脑在物理模拟器中被训练以控制虚拟大鼠的身体。
  • 大脑活动匹配:AI的大脑活动模式与真实啮齿动物非常相似,显示出其能够捕捉肌肉控制和运动原理。
  • 虚拟神经科学:这种方法可能为使用AI动物进行测试和先进机器人系统工程开辟新的研究途径。
  • 研究意义:这些虚拟啮齿动物为理解神经活动如何产生运动提供了新的视角,有望随着AI技术的发展,我们对大脑和神经活动的理解将大幅扩展。
 
🤖 人形机器人驾驶汽车实验
东京大学的研究人员开展实验,将人形机器人Musashi置于汽车驾驶座,探索一种全新的自动驾驶方法。Musashi具备类似人类的关节和肌肉,能够通过传感器数据学习驾驶技能,如启动车辆、操作转向灯和遵守交通信号灯。它使用高分辨率摄像头作为“眼睛”来观察周围环境,尽管目前驾驶技术尚处于初级阶段,但未来有望发展为能够执行多种任务的通用人形机器人。
  • 实验概况:在日本进行的人形机器人驾驶实验,机器人操作谨慎,完成简单右转需两分钟。
  • 技术特点:Musashi模仿人类关节和肌肉,通过传感器数据学习驾驶动作。
  • 驾驶技能:已学会点火、踩油门刹车、操作转向灯和遵守交通信号灯。
  • 环境感知:使用高分辨率摄像头观察环境,识别行人,保持安全。
  • 未来展望:Musashi尚需更多训练,但未来可能发展为多功能通用人形机器人,如MIT研究人员正在探索的项目。
  • 研究意义:为自动驾驶领域提供了新视角,可能优于传统自动驾驶汽车,有助于推动相关技术的发展。
 
🔄 HOI-Swap:视频中手-物体交互的对象交换
HOI-Swap技术能够识别并交换视频中手部交互的对象,仅需用户提供一个参考对象图像即可实现。
  • 交互对象识别:专注于视频中手部交互的对象,实现精确交换。
  • 用户参与:系统仅需用户提供一个参考图像,简化操作流程。
  • 应用场景:适用于视频编辑、虚拟现实、电影制作等领域,提高后期制作的灵活性和效率。
  • 技术优势:通过手-物体交互感知,提升视频内容的自然度和真实感。
 
探索·AI开源
🚀 DeepSeek Coder V2 开源发布
DeepSeek Coder V2,由杭州深度求索公司发布,成为全球首个在代码和数学能力上与 GPT-4-Turbo 竞争的开源模型。
  • 模型参数:总参数量达236B,每个Token激活2.1B参数,支持128K上下文长度。
  • 性能地位:在多个代码和数学榜单上位居全球第二,介于 GPT-4o 和 GPT-4-Turbo 之间。
  • 通用能力:具备国内第一梯队的中英通用能力,扩展了对编程语言的支持,从86种到338种。
  • 技术优势:在标准基准评估中优于多个闭源模型,包括 GPT-4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro。
  • 功能特点:功能强大且高效的代码生成模型,支持广泛的编程语言,性能上有显著优势。
  • 开源贡献:推动开源代码模型发展,继去年 DeepSeek-Coder 后,DeepSeek-V2 继续引领模型结构创新潮流。
DeepSeek Coder V2 的开源发布,不仅展现了开源MoE模型的强大潜力,也为编程语言处理和数学问题解决提供了新的工具和方向。
 
🚀 英伟达开源Nemotron-4:超大规模LLM
英伟达开源了迄今为止规模最大的语言模型Nemotron-4,具备340B参数,支持4K上下文长度。
  • 大规模训练:Base模型在9万亿Token的庞大语料库上进行预训练,涵盖50多种自然语言和40多种编程语言。
  • 多语言支持:模型支持广泛的语言,增强了跨文化交流和应用的潜力。
  • 对齐技术:经过SFT(Supervised Fine-Tuning)、DPO(Discriminator Pre-training with OOD Post-Processing)、RPO(Rapid Prompt Optimization)三种对齐方式。
  • 数据合成:在对齐过程中,使用了98%的合成数据,减少了对真实数据的依赖。
  • 强大硬件支持:训练使用了768个DGX H100集群,每个集群包含8个H100 80GB SXM5 GPU,展现了强大的计算能力。
Nemotron-4的开源将为AI研究和应用带来新的机遇,推动语言模型技术的发展和创新。
 
🎙️ 复旦开源EMO:让照片说话
复旦大学发布了一个开源版本的EMO,这项技术通过输入音频让面部照片开始说话,并且配合相应的表情,效果看起来非常自然。
  • 端到端扩散范式:采用的技术确保了音频输入与视觉输出间的高对齐精度。
  • 分层合成模块:引入了分层的音频驱动视觉合成模块,提高了唇部、表情和姿势的协调性。
  • 自适应控制:该模块提供了对表情和姿势多样性的自适应控制。
  • 个性化定制:更有效地实现了针对不同身份的个性化定制,增强了应用的灵活性和适应性。
这项技术在人机交互、虚拟现实和娱乐等领域具有广泛的应用前景,为面部动画和表情模拟提供了新的解决方案。
 
🛠️ StableMaterials:半监督学习增强材料多样性
StableMaterials技术通过半监督学习提升了材料生成的多样性,能够从文本或图像输入快速生成高分辨率的可平铺PBR材料。
  • 高分辨率输出:生成高分辨率的PBR材料,满足高质量渲染需求。
  • 快速生成:仅通过4个扩散步骤,实现从输入到输出的快速转换。
  • 可平铺性:生成的材料支持平铺,适合连续或循环使用场景。
  • 输入灵活:接受文本提示或输入图像作为生成依据,提高应用范围。
  • 半监督学习:结合有标签和无标签数据,优化学习过程,提升生成效果。
 
 
💡
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
 
notion image