URL
type
status
date
slug
summary
tags
category
icon
password
AIDaily 026/100
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。
但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。
今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。
人们会被自己热爱的事物改变,而没有人因为给予而贫穷。
Vol.026
by Rocket
🔥 Adobe 发布 Firefly 图像生成模型新升级
Adobe 宣布对其 Firefly 图像生成模型进行重要升级,改进了图像质量、风格化能力、处理速度和细节表现,并集成了新的 AI 功能。
详细情况:
- Firefly Image 3 承诺提供接近照片的真实感、改进的文本渲染效果、更精准的提示理解和更强大的插图制作能力。
- 新引入的结构和样式参考工具,使用户能够更精确地控制图像生成过程。
- Photoshop 的更新包括改进的生成填充、生成图像、生成相似项、生成背景和增强细节等功能。
- Adobe 强调了在获得授权的素材上训练模型的重要性,并为 Firefly 生成的图像自动附上 AI 元数据标签。
重要性:
- Firefly 的新升级强化了其在图像生成领域的竞争力,使其有能力争夺最强大图像生成工具的地位。
- Adobe 将强大的 AI 功能直接嵌入到其行业标准的平台中,这不仅是一个渐进的过程,也展示了 Adobe 作为工具而非替代品,重新定义创意工作流程的潜力。
🦙 Llama 3 模型获好评,提供更优的AI体验
沃顿商学院教授 Ethan Mollick 认为没有理由继续使用免费的 ChatGPT-3.5,因为 Llama 3 不仅性能更佳,而且是免费的。这一观点与 Llama 3 自公开发布以来在社交平台上形成的普遍看法相呼应。
以下是关于 Llama 3 你需要了解的几个要点:
- Llama 3 的 70B 版本在 LMSYS 英语提示排行榜上仅次于 OpenAI 的 GPT-4 Turbo,显示出其强大的性能。
- 较小的 8B 模型在性能上轻松超越了支持免费版 ChatGPT 的 GPT-3.5。
- Llama 3 模型不仅开源,而且运行成本远低于封闭的替代方案,如 GPT-4。
- 社交媒体上分享的多个视频显示,Llama 3 的运行速度明显快于 ChatGPT。此外,一些用户声称他们能够在本地设备上运行该模型,而非仅在云端。
- Llama 3 目前已在 meta.ai 上开放测试,并且正在为 Meta 公司旗下的社交应用(如 Instagram)的聊天机器人提供支持。
Llama 3 的发布,标志着 AI 技术在开源领域的新进展,为用户提供了更高效、成本效益更高的选择,同时也可能会对现有的商业 AI 模型产生影响。
💰 苹果悄然收购Datakalab,增强设备端AI能力
苹果公司刚刚完成了对Datakalab的收购,这是一家总部位于巴黎的AI初创公司,专注于数据压缩和图像分析,此举将增强苹果在设备端AI领域的能力。
详细情况:
- 这次收购于2023年12月完成,但直到最近才通过一份报告曝光。
- Datakalab在开发高效、低功耗的AI算法方面拥有专业知识,这些算法适用于计算机视觉应用,能够在设备上运行,而不是依赖云服务。
- 苹果在2023年收购了多达32家AI初创公司,数量超过其他任何科技公司。
- 预计苹果将在6月份的WWDC活动上公布一系列AI相关的新功能,包括为新款iPhone提供的设备端AI功能。
重要性:
- 苹果在AI领域继续低调行事,但这家科技巨头可能在6月的WWDC上带来重大突破。随着设备端AI的热潮不断升温,即将发布的iPhone可能会为全球用户手中AI的集成设定新的标准。
📉 苹果削减Vision Pro 2024-25年度出货量预测
据TF国际证券分析师郭明錤(Ming-Chi Kuo)周二表示,苹果公司预计2024年Vision Pro的出货量将介于400,000至450,000台之间,低于市场共识的700,000至800,000台或更多。此举发生在Vision Pro在美国上市后,需求“急剧超出预期地下降”之前。苹果在Vision Pro进入其他国家市场前就已缩减了订单,这表明苹果对头显需求持“保守看法”。
郭明錤还提到,苹果正在努力提高生产和供应链管理的效率,但对产品规格和用户体验的改动不大。他预计,直到2027年我们才会看到有重大更新的Vision Pro发布。此外,由于Vision Pro的低迷销量,预计会影响到小型消费电子产品中“煎饼”透镜的增长和微OLED显示技术的应用。
苹果对Vision Pro的出货量下调,可能反映了AR/VR头显行业的一个熟悉模式——初期的热情逐渐转变为持续兴趣和使用的显著下降。苹果还正在“审查和调整”其头显产品路线图,郭明錤不预期在2025年会发布新的Vision Pro模型。
🎮 虚幻引擎5.4发布,带来游戏开发革新
虚幻引擎5.4现已发布,为游戏开发者及跨行业创作者带来了一系列新功能和改进。这个版本包含了性能、视觉保真度及生产效率的显著提升,将极大地丰富创作者的工具箱。
该版本中,Epic Games 交付了其内部工具集,这些工具曾被用于开发《堡垒之夜》第五章、《火箭赛车》、《堡垒之夜节》和《乐高堡垒之夜》等项目。更新亮点包括:
- 编辑器内动画和绑定工具集的重大更新,以及现在可用于生产的运动匹配功能。
- 在多个领域显著提升的渲染性能。
- 全新的Nanite细分功能,允许在不修改原始网格的情况下添加细节。
- 用于编辑复杂2D动态图形的全新动态设计模式。
- 内置的渲染图层支持和基于节点的影片渲染图表。
- 虚拟制片功能的增强,增强的Linux支持。
此外,对于开发者来说,还有:
- 面向分布式用户和团队的虚幻云分布式持续集成/持续部署(DDC)。
- 本地DDC的增强,现在支持全新的虚幻Zen存储服务器架构。
- 可伸缩的C++分布式编译解决方案——虚幻构建加速器。
- 多进程烘焙现在也适用于生产环境。
虚幻引擎5.4的发布,预示着游戏和实时3D内容创作将迎来新一轮的技术飞跃,为开发者提供更强大的工具和更高的创作自由度。
🌐 Groq 与 Earth Wind & Power 合作,在挪威建立首个欧洲 AI 计算中心
AI 初创公司 Groq 宣布与 Earth Wind & Power 建立新的合作伙伴关系,在挪威建立首个欧洲 AI 计算中心,旨在提升公司的计算能力。
- Groq 已与 Earth Wind & Power 签署意向书,计划在挪威开发首个欧洲垂直整合的 AI 计算中心。
- 该中心将为挪威、欧洲和北约盟国提供成本最低、能效最高、可扩展的推理计算访问权限,这对于世界从训练转向支持生成性 AI (GenAI) 应用所需的特定计算类型至关重要。
- 根据意向书条款,Groq 承诺在 2024 年在 Earth Wind & Power 的 AI 计算中心部署并运营 21,600 个 LPU,并且有选择权在 2025 年将这个数字增加到 129,600 个 LPU。
- Earth Wind & Power 的联合创始人 Ingvil Smines Tybring-Gjedde 表示,公司致力于在保护挪威和欧盟公民能源资源和成本的同时,使 AI 进展成为可能。
- Groq 预计将通过 GroqCloud™ 在 2025 年底前交付全球 50% 的推理计算能力。
重要性:
- 此次合作不仅将加强 Groq 在 AI 计算领域的地位,而且有望通过提供绿色能源驱动的最快 AI 计算中心,推动挪威和欧盟的生成时代经济。
- 此举符合 Groq 的战略目标,即通过其 LPU™ 推理引擎提供实时 AI 推理解决方案,为生成性 AI 应用提供支持,并且该公司致力于在保持人类代理权的同时构建 AI 经济。
🔍 字节跳动发布图像模型蒸馏算法 Hyper-SD
字节跳动的Lightning团队推出了新的图像模型蒸馏算法Hyper-SD,该算法在压缩推理步骤的同时保持了接近完美的性能,并且在1步到8步的推理中均展现出比以往蒸馏方式更优异的表现,同时支持SD1.5和XL模型。
详细介绍:
- Hyper-SD算法提出了一个创新框架,结合了保持ODE(常微分方程)轨迹和对其进行改进的优势。
- 该算法首先引入了分段轨迹一致性蒸馏技术,通过在预设时间段内进行蒸馏,确保了原始ODE轨迹的完整性。
- 其次,通过人类反馈学习机制,提升了模型在较少推理步骤下的表现,并减少了性能损失。
- 最后,算法采用了分数蒸馏技术,增强了模型在低步推理下的生成能力,并首次尝试使用统一的LoRA机制支持全过程推理。
实验和用户研究结果表明,Hyper-SD在推理性能上取得了显著提升。例如,Hyper-SDXL在仅使用一步推理的情况下,在CLIP得分上比SDXL-Lightning高出0.68分,在Aes得分上也高出0.51分,证明了其在图像模型蒸馏方面的先进性和实用性。
🧠 商汤科技发布“日日新5.0”大模型,对标GPT-4 Turbo
商汤科技(SenseTime)正式推出了其人工智能大模型“日日新5.0”,该模型具备高达200K的推理上下文窗口,旨在全面对标OpenAI的GPT-4 Turbo。这一升级版的大模型采用了混合专家架构(MoE),基于超过10TB的tokens进行训练,并覆盖了大量合成数据。
“日日新5.0”在多项能力上进行了增强,包括知识、数学、推理和代码能力,尤其在文科和理科能力方面均有显著提升。在文科能力方面,模型的创意写作、推理和总结能力得到了增强,能够为教育和内容产业等垂直应用场景提供辅助。理科能力方面,模型在数理、代码和推理能力上达到了业内领先水平,为金融和数据分析等场景提供了坚实的基础。
此外,“日日新5.0”在多模态能力上也取得了突破,在多模态大模型权威综合基准测试MMBench中综合得分排名首位,并在多个知名多模态榜单中取得领先成绩。该模型支持高清长图的解析和理解、文生图交互式生成,并能实现复杂的跨文档知识抽取及总结问答展示,具备丰富的多模态交互能力。