AIDaily 050/100

URL

type

status

date

slug

summary

🖼️

每天都能接收到无数条与AI、科技、艺术、经济相关的信息。但是感觉自己就像那只掰玉米的熊，掰了一路，最后出来发现只剩下手里的两根玉米🌽。今年希望能够以Newsletter的形式，给自己掰下来的玉米们找个背篓。人们会被自己热爱的事物改变，而没有人因为给予而贫穷。

Vol.050

by Rocket

探索·AI产品

🎥 快手发布先进可灵视频生成模型可比Sora

快手今天推出了一款名为可灵的视频生成模型，支持生成最长两分钟、每秒30帧、1080P分辨率的高清视频。

关键特点：

高生成质量：生成的视频质量是目前普通用户能够接触到的最高水平。

性能超越：在5秒视频的生成质量上，可灵模型已经完全超越了谷歌的Voe视频模型。

运动幅度与一致性：在运动幅度、不同比例、一致性以及物理特性方面，可灵模型的表现是目前市场上除了Sora之外最佳的。

体验途径：用户可以通过快影APP的AI玩法部分，进入AI视频生成页面申请体验。

快手的这一新模型的发布，展示了公司在视频生成技术领域的最新进展，为用户提供了一个高质量的视频创作工具。随着AI技术在视频制作领域的不断进步，预计未来将有更多创新和高效的视频生成解决方案出现。

🔊 Stability AI 发布开放音频模型 Stable Audio Open

新模型发布：Stability AI 推出 Stable Audio Open，一种根据文本提示生成简短音频样本和声音效果的新模型。

音频长度与质量：该模型能够生成长达 47 秒的高质量音频，专注于音效和制作元素。

版权问题：为避免版权问题，模型使用 FreeSound 和 Free Music Archives 的数据进行训练。

自定义微调：Stable Audio Open 允许艺术家对自己的样本进行模型微调。

行业影响：文本到图像的 AI 模型进步显而易见，而视频和音频领域也将迎来类似飞跃。这些工具将为创意人员提供重新定义传统工作流程的可能性，无论是音乐家创作新节奏还是导演为影视作品制作音效。

🤝 6月10日的苹果开发者大会上，苹果将宣布与 OpenAI 的合作

合作背景：OpenAI 与微软（Microsoft）曾建立了行业最大的合作之一，通过微软的服务器访问权限换取 OpenAI 的 GPT 技术。

新合作传闻：现在有传闻称 OpenAI 与苹果（Apple）达成了合作协议，这可能使微软感到自己是否处于不利地位。

预期合作内容：

Siri 升级：预计在 6 月 10 日的苹果开发者大会上，苹果将宣布与 OpenAI 的合作，为 Siri 带来期待已久的升级。

ChatGPT 集成 iOS：合作还将把 ChatGPT 驱动的功能引入最新版本的 iOS，用户可以期待 AI 驱动的照片编辑、表情符号和消息功能。

Siri 功能扩展：升级后的 Siri 将能够在各种应用程序中执行任务和控制功能。

对微软的影响：

服务器压力：微软为 OpenAI 的模型提供服务器支持，目前尚不清楚这些服务器是否能够承受数百万用户的压力。

市场竞争：苹果的每一项新 AI 功能都使其与在 AI 集成方面处于领先地位的微软形成直接竞争。

这次传闻中的合作可能会改变 AI 领域的竞争格局，尤其是在智能助手和移动操作系统市场中。如果合作成真，这将是 OpenAI 在技术合作方面的一次重要扩展，同时也可能对微软构成挑战。

🎬 演员兼企业家阿什顿·库彻测试 OpenAI 的 Sora

阿什顿·库彻（Ashton Kutcher）透露，他正在测试 OpenAI 的 Sora 人工智能生成视频技术，并认为其中一些生成内容的质量已经达到了可以在电影和电视行业中使用的水平。

这一评价反映了 Sora 技术的先进性和潜力，表明它可能对娱乐产业产生重大影响，为电影和电视制作提供新的工具和可能性。随着 AI 技术在内容创作领域的不断进步，它可能会改变传统的制作流程，提高效率，甚至可能创造出全新的视觉和叙事手法。

探索·AI大事件

🏭️ xAI 将在田纳西州孟菲斯建造“计算超级工厂”超级计算机

xAI 已同意在田纳西州孟菲斯建立其“计算超级工厂”超级计算机，预计将于 2025 年底完成该系统。

关键点：

超级计算机项目：xAI 的这一项目旨在构建一个大规模的计算设施，以支持其先进的人工智能研究和开发。

地理位置：选择孟菲斯作为超级计算机的所在地，可能会受益于该地区的基础设施和商业环境。

完成时间：xAI 计划在 2025 年底之前完成超级计算机的建设，这将是一个重要的里程碑，有望推动公司的技术进步。

技术影响：该超级计算机的建成将为 xAI 提供强大的计算能力，有助于其在人工智能领域的研究和应用。

xAI 的这一决策体现了公司对高性能计算基础设施的重视，同时也展示了其在人工智能技术发展上的雄心。随着超级计算机的建成，xAI 将能够更有效地处理大量数据，加速模型训练和算法开发，从而在 AI 领域保持竞争优势。

🤝 Midjourney 计划与 AI Labs 共享 API

Midjourney 的创始人 David 在 Midjourney Office Hours 活动中透露，公司将与一些 AI Labs 共享其应用程序编程接口（API）。

关键信息：

API 共享：Midjourney 计划开放其 API，与外部的 AI 实验室进行合作。

合作伙伴可能性：鉴于 David 与埃隆·马斯克（Elon Musk）的友谊，与马斯克相关的项目或公司建立合作伙伴关系是有可能的。

这一决策可能意味着 Midjourney 正在寻求扩大其技术的影响力和应用范围，通过与 AI 实验室的合作，探索新的创意和应用场景。开放 API 也可能吸引更多的开发者和创新者参与到 Midjourney 的生态系统中，推动公司的技术发展和市场扩展。

探索·AI开源

🃏 Seed-TTS：字节跳动开发的王炸级文本到语音模型

字节跳动推出了名为Seed-TTS的文本到语音(TTS)模型，它在生成高质量、接近人类声音的语音方面取得了突破性进展。

关键特点：

高质量语音生成：Seed-TTS能够生成几乎无法与人类声音区分的高质量语音。

克隆能力：无需训练，只需简短的语音片段，即可克隆生成高度自然且富有表现力的语音。

应用场景：Seed-TTS完全能够胜任读小说、配音等任务。

高级控制能力：提供了对情感、语调、说话风格等多种语音属性的高级控制。

文本编辑功能：用户还可以通过编辑文本来编辑生成的语音，实现更精细的调整。

Seed-TTS的推出标志着文本到语音技术的又一重要进步，为语音合成领域带来了新的可能性。这项技术的应用将极大地丰富内容创作、有声读物、视频配音等多个行业，为用户提供更加自然和个性化的语音体验。随着技术的不断发展，Seed-TTS有望在未来实现更广泛的应用和更深入的集成。

论文地址：https://arxiv.org/html/2406.02430v1?_immersive_translate_auto_translate=1

🚀 阿里云发布通义千问Qwen2大型模型并开源

发布与开源：2024年6月7日，阿里云正式推出了通义千问Qwen2系列大型模型，并在Hugging Face和ModelScope平台上进行了开源。

模型规模：Qwen2系列包含五种不同规模的模型，分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

上下文长度：这些模型支持扩展的上下文长度，最长可达127K tokens，满足多样化的应用场景需求。

性能提升：特别是Qwen2-72B模型，其性能较前代Qwen1.5-110B有显著提升，并超越了美国的Llama3-70B和中国的闭源模型如文心4.0、豆包pro、混元pro等。

多语言支持：Qwen2系列不仅在中文和英文上进行了训练，还加入了27种语言的高质量数据，增强了多语言处理能力。

技术优化：所有模型采用GQA（分组查询注意力）机制，提升了推理速度并降低了显存占用。

行业影响：阿里云的Qwen2系列模型发布，不仅技术上取得突破，也为开源与闭源的争论提供了解决方案，彰显了其在全球AI领域的领导地位。

阿里云的这一举措进一步推动了AI技术的发展和应用，为全球AI社区提供了强大的工具和资源，同时也为多语言处理和跨领域应用提供了新的可能性。

探索·AI投融资

📽️ Pika Labs 完成 8000 万美元 B 轮融资

Pika Labs 宣布为其文本到视频平台完成 8000 万美元的 B 轮融资，此轮融资使公司的估值达到 4.7 亿美元。

投资者：本轮融资得到了 Spark Capital 以及演员兼音乐家 Jared Leto 等知名投资者的支持。

平台特点：Pika Labs 的平台能够将文本转换为视频，为用户提供创新的内容创作解决方案。

市场潜力：随着视频内容需求的不断增长，Pika Labs 的技术有望在媒体、娱乐和教育等多个领域发挥重要作用。

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~

AIDaily 050/100

Vol.050

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享