URL
type
status
date
slug
summary
tags
category
icon
password
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。
但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。
今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。
人们会被自己热爱的事物改变,而没有人因为给予而贫穷。
Vol.012:录音转文字硬件
by Rocket
#关于AI·录音转文字硬件
Ethan展示了一个可以运行在16GB M1芯片上的AI可穿戴设备原型
这个设备能实时监听你所说的话
时刻保持在线,能随时和你进行对话
并能记住你们对话内容,还能定向将信息传输到你们当时对话环境相适应的的设备上。
所有的技术全部使用了开源技术栈,他将很快分享代码。
前半部分演示使用的是GPT-3.5和ElevenLabs,改进后完全是开源的技术
这套技术栈包括:
会话转录:使用Whisper Medium
实时转录:使用Whisper Small
声音活动检测(VAD):使用Silero
大型语言模型(LLM):使用Mistral-Instruct 7B
文本到语音(TTS):使用StyleTTS2
#关于AI·文字生成图文
InternLM-XComposer:直接输出图文并茂的完整文章
浦语·灵笔是一个高级的图文多模态大模型,能够在自由形式的输入下进行图文创作和理解。
你只需要给出一个提示,比如一个主题、一个想法或者一个故事大纲
它就能根据这个提示创作出一篇包含文字和图片的完整文章。图文完美契合...
不仅如此,它还拥有海量的图文知识库,能够准确回答各种图文问答难题,具有图像识别、感知和视觉推理能力。
主要功能特点:
1、灵活的内容创作:
你可以给它任何类型的启示,无论是一个大致的想法、一篇详细的文章大纲,还是一些参考图片,它都能根据这些信息创作出既有文字又有图片的内容。
2、智能地处理图片和文字:
通过部分LoRA(PLoRA)方法,来确保图片和文字之间的完美搭配,它既懂得如何写好文章,又懂得如何挑选或创造出最佳配图。
3、高品质和多样化的创作基础:
采用质量高、风格多样的数据集,拥有海量的图文知识库,它能创作出各种风格和主题的内容,因为它的“知识库”包含了大量高品质和多样化的信息。
4、出色的视觉理解能力:
它不仅仅能处理文字,还能深入理解图片内容,这让它能创作出更丰富、更吸引人的内容。
浦语·灵笔包括两个版本:
InternLM-XComposer2-VL-7B
(浦语·灵笔2-视觉问答-7B): 基于书生·浦语2-7B大语言模型训练,面向多模态评测和视觉问答。
浦语·灵笔2-视觉问答-7B是目前最强的基于7B量级语言模型基座的图文多模态大模型,领跑多达13个多模态大模型榜单。
InternLM-XComposer2-7B: 进一步微调,支持自由指令输入图文写作的图文多模态大模型。
GitHub:
论文:
在线演示:
#关于AI·Media2Face:通过语音合成3D面部画面 Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。
同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。
它还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。
实际应用:
- 创造对话场景:比如,根据你写的剧本,电脑可以生成人物对话的动画场景。
- 制作风格化的面部动画:你可以给电脑一个表情符号,它就能根据这个符号创造出动画。
- 情感歌唱:电脑还能根据不同的语言唱歌,表现出对应的情感。
- 个性化动画:最神奇的是,这个项目能够创造出符合不同人种、年龄和性别的个性化面部动画。
工作原理:
Media2Face项目的工作原理涉及几个关键技术和步骤,使其能够从语音合成出具有丰富表情和情感的3D面部动画。下面是该项目的主要工作流程:
1. 通用神经参数化面部资产(GNPFA):
面部映射:首先,研究团队创建了一个特殊的工具(叫做GNPFA),它就像一个大型的面部表情数据库。无论你想要什么样的表情,这个工具都能帮你找到,并且还能确保每个人的面部动画都独一无二,不会和别人混淆。
这个过程实现了表情和身份的解耦,即能够在不同的身份之间转换相同的表情。
2. 高质量表情和头部姿势提取:
然后,他们用这个工具处理了很多视频,从中提取出了高质量的表情和头部动作。
这样就创建了一个巨大的数据集,里面包含了各种各样的面部动画和对应的情感、风格标签。
3. 多模态引导的动画生成:
扩散模型应用:Media2Face采用一个扩散模型在GNPFA的潜在空间中进行动画生成,这个模型能够接受来自音频、文本和图像的多模态引导。
条件融合:模型将音频特征和CLIP潜在代码作为条件,与表情潜在代码序列的噪声版本以及头部运动代码(即头部姿势)一起去噪。
交叉注意力机制:条件被随机掩蔽,并通过与噪声头部运动代码的交叉注意力进行处理。
4. 高保真度和风格多样性的动画:
表情和头部姿势生成:在推理时,通过DDIM采样头部运动代码,然后将表情潜在代码输入到GNPFA解码器中提取表情几何形状,结合模型模板生成由头部姿势参数增强的面部动画。
5. 微调和个性化:
表情和风格微调:通过表情编码器提取关键帧表情潜在代码,并通过CLIP提供每帧的风格提示,如“快乐”或“悲伤”,用户可以调整动画的强度和控制范围。
通过这些技术步骤,Media2Face能够生成与语音同步的、表现力丰富的3D面部动画,支持复杂的情感表达和风格变化,为创建虚拟角色和增强数字人物的交互体验提供了强大工具。
项目及演示:
论文:
#关于AI·语音GPTs
ElevenLabs 推出了自己的官方GPTs
它可以将提供的任何内容转换成语音...
- 通过你的提示生成有声读物
- 提供在线链接,帮你朗读在线文章
- 上传的任何文档内容,帮你转换成语音
- 粘贴或输入任何内容转换为语音
目前支持三种声音选择:
Jarvis 贾维斯
一位经典的男性旁白
一位经典的女性旁白
测试了下不支持中文,目前只支持英文类型的语音。
试了一下 ARC 浏览器昨晚发布的 Instant Links 即时链接功能,很强,
访问一些确定性的东西效率确实挺高的。
AI 驱动的东西还有一个好处就是不需要适配就支持多语言,这功能直接就支持中文。
使用方式:
在搜索栏输入 MAX 打开 MAX Preferences,然后开启,之后在搜索栏输入你的要求,按shift+Enter就可以。
比如我先试了一下让他打开 Comfyui 的 Github 项目主页,他做的非常好。
然后让他找一些 Vision Pro 的测评并放在一个文件夹里面,找到的内容也还 OK 。感觉我以后会经常用这个功能了。