AIDaily 012/100

URL

type

status

date

slug

summary

🖼️

每天都能接收到无数条与AI、科技、艺术、经济相关的信息。但是感觉自己就像那只掰玉米的熊，掰了一路，最后出来发现只剩下手里的两根玉米🌽。今年希望能够以Newsletter的形式，给自己掰下来的玉米们找个背篓。人们会被自己热爱的事物改变，而没有人因为给予而贫穷。

Vol.012：录音转文字硬件

by Rocket

#关于AI·录音转文字硬件

Ethan展示了一个可以运行在16GB M1芯片上的AI可穿戴设备原型这个设备能实时监听你所说的话时刻保持在线，能随时和你进行对话并能记住你们对话内容，还能定向将信息传输到你们当时对话环境相适应的的设备上。所有的技术全部使用了开源技术栈，他将很快分享代码。前半部分演示使用的是GPT-3.5和ElevenLabs，改进后完全是开源的技术 这套技术栈包括：

会话转录：使用Whisper Medium

实时转录：使用Whisper Small

声音活动检测（VAD）：使用Silero

大型语言模型（LLM）：使用Mistral-Instruct 7B

文本到语音（TTS）：使用StyleTTS2

#关于AI·文字生成图文

InternLM-XComposer：直接输出图文并茂的完整文章浦语·灵笔是一个高级的图文多模态大模型，能够在自由形式的输入下进行图文创作和理解。你只需要给出一个提示，比如一个主题、一个想法或者一个故事大纲它就能根据这个提示创作出一篇包含文字和图片的完整文章。图文完美契合... 不仅如此，它还拥有海量的图文知识库，能够准确回答各种图文问答难题，具有图像识别、感知和视觉推理能力。 主要功能特点：

1、灵活的内容创作：

你可以给它任何类型的启示，无论是一个大致的想法、一篇详细的文章大纲，还是一些参考图片，它都能根据这些信息创作出既有文字又有图片的内容。

2、智能地处理图片和文字：

通过部分LoRA（PLoRA）方法，来确保图片和文字之间的完美搭配，它既懂得如何写好文章，又懂得如何挑选或创造出最佳配图。

3、高品质和多样化的创作基础：

采用质量高、风格多样的数据集，拥有海量的图文知识库，它能创作出各种风格和主题的内容，因为它的“知识库”包含了大量高品质和多样化的信息。

4、出色的视觉理解能力：

它不仅仅能处理文字，还能深入理解图片内容，这让它能创作出更丰富、更吸引人的内容。

浦语·灵笔包括两个版本:

InternLM-XComposer2-VL-7B

（浦语·灵笔2-视觉问答-7B）: 基于书生·浦语2-7B大语言模型训练，面向多模态评测和视觉问答。浦语·灵笔2-视觉问答-7B是目前最强的基于7B量级语言模型基座的图文多模态大模型，领跑多达13个多模态大模型榜单。 InternLM-XComposer2-7B: 进一步微调，支持自由指令输入图文写作的图文多模态大模型。 GitHub：

https://github.com/InternLM/InternLM-XComposer/tree/main…

论文：

https://arxiv.org/abs/2401.16420

在线演示：

https://huggingface.co/spaces/Willow123/InternLM-XComposer…

#关于AI·Media2Face：通过语音合成3D面部画面 Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。

同时允许用户对生成的面部动画进行更细致的个性化调整，如情感调整，“快乐”或“悲伤”等。

它还能理解多种类型的输入信息（音频、文本、图像），并将这些信息作为生成面部动画的指引。

实际应用：

- 创造对话场景：比如，根据你写的剧本，电脑可以生成人物对话的动画场景。 - 制作风格化的面部动画：你可以给电脑一个表情符号，它就能根据这个符号创造出动画。 - 情感歌唱：电脑还能根据不同的语言唱歌，表现出对应的情感。 - 个性化动画：最神奇的是，这个项目能够创造出符合不同人种、年龄和性别的个性化面部动画。

工作原理：

Media2Face项目的工作原理涉及几个关键技术和步骤，使其能够从语音合成出具有丰富表情和情感的3D面部动画。下面是该项目的主要工作流程： 1. 通用神经参数化面部资产（GNPFA）：面部映射：首先，研究团队创建了一个特殊的工具（叫做GNPFA），它就像一个大型的面部表情数据库。无论你想要什么样的表情，这个工具都能帮你找到，并且还能确保每个人的面部动画都独一无二，不会和别人混淆。这个过程实现了表情和身份的解耦，即能够在不同的身份之间转换相同的表情。 2. 高质量表情和头部姿势提取：然后，他们用这个工具处理了很多视频，从中提取出了高质量的表情和头部动作。

这样就创建了一个巨大的数据集，里面包含了各种各样的面部动画和对应的情感、风格标签。 3. 多模态引导的动画生成：扩散模型应用：Media2Face采用一个扩散模型在GNPFA的潜在空间中进行动画生成，这个模型能够接受来自音频、文本和图像的多模态引导。条件融合：模型将音频特征和CLIP潜在代码作为条件，与表情潜在代码序列的噪声版本以及头部运动代码（即头部姿势）一起去噪。交叉注意力机制：条件被随机掩蔽，并通过与噪声头部运动代码的交叉注意力进行处理。 4. 高保真度和风格多样性的动画：表情和头部姿势生成：在推理时，通过DDIM采样头部运动代码，然后将表情潜在代码输入到GNPFA解码器中提取表情几何形状，结合模型模板生成由头部姿势参数增强的面部动画。 5. 微调和个性化：表情和风格微调：通过表情编码器提取关键帧表情潜在代码，并通过CLIP提供每帧的风格提示，如“快乐”或“悲伤”，用户可以调整动画的强度和控制范围。

通过这些技术步骤，Media2Face能够生成与语音同步的、表现力丰富的3D面部动画，支持复杂的情感表达和风格变化，为创建虚拟角色和增强数字人物的交互体验提供了强大工具。项目及演示：

https://sites.google.com/view/media2face

论文：

https://arxiv.org/abs/2401.15687

#关于AI·语音GPTs

ElevenLabs 推出了自己的官方GPTs 它可以将提供的任何内容转换成语音... - 通过你的提示生成有声读物 - 提供在线链接，帮你朗读在线文章 - 上传的任何文档内容，帮你转换成语音 - 粘贴或输入任何内容转换为语音目前支持三种声音选择： Jarvis 贾维斯

一位经典的男性旁白

一位经典的女性旁白

测试了下不支持中文，目前只支持英文类型的语音。

试了一下 ARC 浏览器昨晚发布的 Instant Links 即时链接功能，很强，

访问一些确定性的东西效率确实挺高的。 AI 驱动的东西还有一个好处就是不需要适配就支持多语言，这功能直接就支持中文。

使用方式：

在搜索栏输入 MAX 打开 MAX Preferences，然后开启，之后在搜索栏输入你的要求，按shift+Enter就可以。比如我先试了一下让他打开 Comfyui 的 Github 项目主页，他做的非常好。然后让他找一些 Vision Pro 的测评并放在一个文件夹里面，找到的内容也还 OK 。感觉我以后会经常用这个功能了。

AIDaily 012/100

Vol.012：录音转文字硬件

#关于AI·录音转文字硬件

#关于AI·文字生成图文

#关于AI·Media2Face：通过语音合成3D面部画面 Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。

#关于AI·语音GPTs

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享