AI Daily
🗒️AIDaily 076/100 DeepSeek VL2-Small发布、阿里巴巴Qwen2.5-Max超越DeepSeek、Meta推出Apollo和Motivo、Google Gemini 2.0系列发布…
00 分钟
2025-2-7
2025-2-10
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

AIDaily 076/100

🖼️
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。 但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。 今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。 人们会被自己热爱的事物改变,而没有人因为给予而贫穷。

Vol.076

by Rocket

探索·AI产品
Perplexity推出o3-mini:支持Web搜索的AI推理模型
Perplexity的o3-mini模型现在支持Web搜索功能,用户可以利用其推理能力获取最新答案,并提供相关网页链接。免费用户每天最多可以执行五次搜索。Pro用户每天可获得多达500次搜索。
  • 推理能力:o3-mini在数学、编程和科学等STEM领域表现优异,支持复杂任务的分解与多步决策。
  • 性能提升:与o1-mini相比,o3-mini的响应速度提升了24%,答案准确性也有所提高。
  • 成本效益:o3-mini的定价为每百万输入tokens 1.10美元,每百万输出tokens 4.40美元,相比o1-mini降低了63%。
 
DeepSeek R1引发的全球关注与争议
DeepSeek的R1模型发布后,美国科技股出现了大幅波动,纳斯达克综合指数下跌约3%,英伟达的股价下跌超过15%。这一现象表明市场对DeepSeek的低成本、高性能模型的出现感到不安,担心其可能对现有AI巨头构成威胁。
  • 技术细节与优势
    • DeepSeek-R1采用了纯强化学习的方法,实现了接近OpenAI o1的性能,但训练成本仅为557万美元,研发周期不到两个月。
    • DeepSeek-R1的开发过程包含了两个强化学习阶段和两个监督微调阶段,这些阶段相辅相成,为模型的推理和非推理能力打下了基础。
  • 创新与竞争
    • 创新激励:DeepSeek的R1模型可能激励美国AI公司加快创新速度,Y Combinator的Garry Tan表示,更便宜、更易获取的训练方法将加速AI应用的需求。
    • 开源合作的力量:Meta的首席AI科学家Yann LeCun强调,DeepSeek的成功得益于开源研究和合作,这表明开源模型在AI发展中的重要性。
  • 企业AI采用率
    • 数百家公司,尤其是与政府相关的企业,已屏蔽了DeepSeek。Armis表示大约70%的客户已请求阻止访问DeepSeek,Netskope威胁实验室总监Ray Canzanese透露,52%的Netskope客户完全阻止了对DeepSeek网站的访问。
    • 微软、亚马逊、英伟达等科技巨头已将DeepSeek-R1集成到其产品和服务中。
  • 监管与市场考量
    • 美国政府正在调查DeepSeek是否通过新加坡的第三方购买英伟达(NVIDIA)的先进半导体,以规避美国对中国用于AI任务的芯片销售限制。
    • 美国国会众议院首席行政事务官已向国会办公室发出通知,警告不要使用DeepSeek的服务。
    • 美国海军、国会、国防部以及NASA等机构已相继禁止在政府官方设备上使用DeepSeek。
    • 美国政府还在考虑发布新法案,下载DeepSeek将被定为犯罪,最高判处20年监禁。
    • 法案链接:https://www.hawley.senate.gov/wp-content/uploads/2025/01/Hawley-Decoupling-Americas-Artificial-Intelligence-Capabilities-from-China-Act.pdf
  • 国际社会的反应
    • 意大利、爱尔兰等多国政府已开展封锁行动或计划对DeepSeek进行审查。
    • 比利时政府隐私监管机构确认收到有关DeepSeek的投诉,但未就是否已对DeepSeek启动调查作出评论。
DeepSeek R1的发布不仅在技术上取得了突破,也在AI行业内部掀起了关于成本效益、开源合作以及全球竞争格局的广泛讨论。
 
探索·AI大模型
DeepSeek VL2-Small:强大的视觉语言模型
  • 功能特点
    • 视觉理解:DeepSeek-VL2-Small特别擅长分析文档和图像,能够处理视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务。
    • 多图像对话:可以分析多张图像之间的关联和差异,并整合内容进行简单推理,例如根据几张图像编写创意故事。
    • 视觉定位:能够识别图像中的物体位置,即使在不同场景下也能准确识别。
  • 技术优势
    • 动态高分辨率视觉编码:采用动态平铺视觉编码策略,有效处理不同纵横比的高分辨率图像。
    • 多头潜在注意力机制:优化语言模型架构,减少计算开销,提高推理速度。
    • 混合专家(MoE)架构:在任务执行期间仅激活必要的参数子集,提高可扩展性和效率。
  • 模型变体
    • DeepSeek-VL2-Tiny:1.0B激活参数,适合轻量级部署。
    • DeepSeek-VL2-Small:2.8B激活参数,适合中等计算需求。
    • DeepSeek-VL2:4.5B激活参数,适合资源密集型任务。
DeepSeek-VL2-Small的发布为视觉语言模型领域带来了新的突破,其强大的功能和高效的架构使其成为开发者和研究人员的有力工具。
 
阿里巴巴Qwen2.5-Max超越DeepSeek V3和Meta Llama 3.1
阿里巴巴的Qwen2.5-Max在多个基准测试中取得了优异成绩,超越了DeepSeek V3和Meta的Llama 3.1。
notion image
  • 测评结果
    • 在数学和编程方面排名第一。
    • 在处理复杂任务的硬提示(hard prompts)方面排名第二。
    • 在总体排名中跻身第7,领先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等顶级专有大语言模型。
  • 技术架构:Qwen2.5-Max采用了超大规模的专家混合(MoE)模型架构,预训练数据量超过20万亿个token,运用监督微调(SFT)和人类反馈强化学习(RLHF)技术进行优化。
 
Meta推出Apollo:专注于视频理解的全新Video-LMM系列
尽管多模态模型(LMMs)在文本和图像任务上取得了显著进展,但基于视频的模型仍面临挑战。视频结合了空间和时间维度,需要更多计算资源,且现有方法难以捕捉运动和时间模式。
  • Apollo模型:Meta AI和斯坦福大学的研究人员开发了Apollo,这是一系列专注于视频的LMMs,旨在突破视频理解的界限。
  • 主要创新
    • 每秒帧采样(fps):与均匀帧采样相比,fps采样保持一致的时间流,使Apollo能够更好地理解视频中的运动。
    • 双视觉编码器:结合SigLIP和InternVideo2,实现视频数据的平衡表示。
    • 标记重采样:通过感知器重采样器减少视频标记,处理长视频时无需过多计算开销。
    • 优化训练:采用三阶段训练流程,确保稳定有效的学习。
  • 性能优势:Apollo在多个基准测试中取得了优异成绩,超越了DeepSeek V3和Meta的Llama 3.1。
 
Meta Motivo:连接人类动作与人形机器人的新算法
Meta Motivo基于一种名为Forward-Backward Representations with Conditional Policy Regularization(FB-CPR)的特殊算法,通过分析大量未标记的动作数据来学习人类的运动。
  • 主要特点
    • 适应性:能够适应不同条件,如重力变化或风等干扰,仍能执行类似人类的动作。
    • 无监督学习:不依赖于每个任务的具体指令,减少了为不同用途编程这些系统的工作量。
  • 应用场景:可用于创建逼真的视频游戏角色动画、辅助物理康复或控制人形机器人执行精确动作。
 
Google Gemini 2.0系列发布,推动AI技术普及化
  • Gemini 2.0 Flash Thinking Experimental
    • Google发布了Gemini 2.0 Flash Thinking Experimental模型,该模型能够将复杂任务分解为一系列步骤,并展示其推理过程。这使得用户可以更清楚地了解模型为何以某种方式响应,其假设是什么,以及推理的逻辑路径。
    • 性能优势:该模型在LMArena的基准测试中被评为“世界上最好的模型”,并且对所有用户免费开放。
    • 应用场景:适用于需要深入研究、构建自己的AI代理以及部署编码项目的人群。
    • 对比 DeepSeek V3 (粗算),成本低 6 倍;输出速度快 60 倍;上下文长 16 倍;原生全模态支持;Google 亲生,算力管够
  • Gemini 2.0 Pro Experimental
    • 功能特点:专为复杂任务设计,提供更好的事实性和更强的编程和数学提示性能。
    • 适用人群:目前仅对开发人员和Gemini高级用户开放。
  • Gemini 2.0 Flash-Lite
    • 功能特点:性能优于其前身Gemini 1.5 Flash,但保持了相同的速度和成本。它是一个多模态模型,能够处理图像和文本输入,并生成文本输出。
    • 性能优势:在大部分基准测试中优于Gemini 1.5 Flash,能够为4万帧图片生成一行的文本图说,在AI Studio中花费不到1美元。
  • 行业影响
    • AI技术普及化:Google的这一系列发布标志着AI技术向更广泛的用户群体开放,让任何人进行深入研究、建立自己的代理并免费部署编码项目。
    • 市场竞争:Google计划在2025年投入约750亿美元用于AI项目,显示出其在AI领域的持续投入和竞争决心。
Google预告将在未来几个月内逐步增加新的模态能力。随着AI技术的快速发展,预计OpenAI或Anthropic等竞争对手将很快推出更先进的模型。
 
探索·AI数字人
ByteDance推出OmniHuman-1:从单张照片生成逼真人像视频
ByteDance的OmniHuman-1模型能够通过单张照片生成逼真的全身人像视频,支持自然的说话、唱歌和动作。
  • 多模态输入:该模型支持多种输入方式,包括音频驱动的动画(生成同步的唇部动作和手势)、视频驱动的动画(复制参考视频中的动作),以及多模态融合(结合音频和视频信号,精确控制身体各部位)。
  • 技术架构:OmniHuman-1采用扩散变换器(Diffusion Transformer)架构,结合“全条件训练策略”(Omni-Conditions Training),能够处理多种输入条件,生成自然流畅的动作。
  • 性能优势:OmniHuman-1在多个基准测试中表现优异,包括唇部同步精度、手势表现力和手部关键点置信度等指标,均优于其他领先模型。
  • 应用场景:该模型适用于虚拟形象、数字故事创作、游戏开发和AI辅助电影制作等领域,能够根据不同的身体比例和宽高比生成视频。
  • 数据利用:OmniHuman-1利用了大量数据进行训练,包括18,700小时的人类动作数据,这使得模型能够生成更真实、更自然的动作。
OmniHuman-1的发布标志着AI视频生成技术的重大进步,其生成的视频在视觉上几乎与真实视频无法区分。
 
探索·新投融资
ElevenLabs完成2.5亿美元C轮融资
AI音频技术公司ElevenLabs完成了2.5亿美元的C轮融资,公司估值达到30亿至33亿美元。
  • 投资方:此轮融资由ICONIQ Growth领投,其他参与方包括a16z、NEA、World Innovation Lab等。
  • 技术特点:ElevenLabs专注于AI语音克隆和配音技术,其产品包括对话AI、语音设计、音效模型、多语言配音等。
  • 应用场景:ElevenLabs的技术被广泛应用于内容创作、客户支持、游戏、教育和无障碍等领域。
  • 未来计划:融资将用于继续开发音频工具和业务拓展
 
Cursor成为最快达到1亿美元年收入的AI编程助手
根据Sacra的估计,Cursor在2024年底达到了1亿美元的年收入,比2023年的100万美元增长了9900%。这一增长速度使其成为历史上从100万美元到1亿美元年收入增长最快的SaaS公司。
  • 用户基础:Cursor通过大约36万名主要为个人开发者的客户群体达到了这一里程碑,这些客户每月支付20-40美元,平均合同价值为276美元。
  • 市场表现:Cursor的AI代码编辑器在开发者中迅速被采用,拥有超过4万名付费客户,包括OpenAI、Midjourney、Perplexity和Shopify等知名科技公司的工程师。
  • 产品特点:Cursor基于VS Code构建,并扩展了AI功能。它通过智能代码补全、AI助手回答编程问题以及一系列工具来简化编码过程。
  • 公司背景:Cursor由Anysphere开发,该公司由几位麻省理工学院的学生于2022年创立。Anysphere在2024年12月完成了1.05亿美元的B轮融资,投后估值达到26亿美元。
  • 行业影响:Cursor的快速增长和市场表现表明,AI编程助手正在成为软件开发中不可或缺的工具。许多风险投资家预测,由于这些工具带来的效率提升,未来初创公司可能需要更少的软件开发人员。
Cursor的快速崛起不仅展示了AI技术在提高编程效率方面的潜力,也反映了市场对AI辅助开发工具的强烈需求。
 
探索·新合作
OpenAI与SoftBank成立新公司SB OpenAI Japan
OpenAI与SoftBank集团宣布成立一家名为SB OpenAI Japan的合资企业,旨在为日本企业提供定制化的人工智能服务。
  • 投资规模:SoftBank集团将每年支付高达30亿美元,以将OpenAI的最新模型整合到其企业产品中。
  • 技术目标:合资企业将专注于开发和推广名为“Cristal intelligence”的先进企业级AI解决方案,该方案能够安全地整合企业的系统和数据。
  • 市场定位:SB OpenAI Japan将独家向日本的主要公司销售Cristal intelligence,帮助企业实现任务自动化和业务转型。
  • 合作意义:此次合作不仅将推动SoftBank集团的运营变革,还将为日本乃至全球的企业工作方式带来革命性变化。
  • 技术基础:Arm公司将提供计算平台,支持从云端到边缘的AI代理的性能、效率和可扩展性。
  • 未来展望:通过在日本的合作经验,双方计划创建一个可在全球范围内复制的AI驱动转型模型。
这一合作标志着OpenAI和SoftBank集团在AI领域迈出了重要一步,旨在通过定制化的AI解决方案提升企业的运营效率和创新能力。
 
Retro Biosciences与OpenAI合作开发GPT-4b Micro
Retro Biosciences与OpenAI合作,开发了一种名为GPT-4b Micro的AI模型,旨在通过重新设计蛋白质来延长人类寿命。
  • 技术特点:GPT-4b Micro专注于Yamanaka因子,能够将成人皮肤细胞重新编程为多能干细胞,效率比传统方法提高了50倍以上。
  • 应用场景:该技术有望在器官再生和细胞替代疗法中取得突破,可能将人类寿命延长多达十年。
  • 项目进展:目前没有明确的完成时间表,但OpenAI和Retro Biosciences承诺将与科学界分享研究成果。
 
 
【🚀 精选内容】
❤ 如果对你有帮助,欢迎分享或者Buy Me A Coffee ❤
 
💡
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
 
notion image