Qy 计划的介绍

Qy 是从 17 至 18 年某几次头脑风暴催生出的的计划，即通过某种仿生的方式来使角色生成活灵活现的动作（包括但不限于声音、面部表情或身体上的动作）。

~~人话：做个会动会唱歌有表情的小姐姐。~~

早期想法

最原始的想法是想通过某种方法来尽可能的实现一个能够覆盖人类发声器官所能出现的绝大多数的声音的模型。

之前在看语音合成的相关资料的时候，想出了一个通过重现发声而不是对音频进行处理来生成音频的思路，并且试图再深入想了一下，但是因为对发声同时其他数据的采集的难度而暂时放弃。然后，今天刷知乎的时候，发现有人已经按照这个思路搞出来并且把论文发到 Nature 了，而且比我的想法更进一步：通过对发声相关的运动皮质的信号的采集，通过两个 RNN 模型（声道参数为其中间参量，其生成使用了其他大量的数据库）生成语音。生成的音质及准确率较以往的其他模型要好。

来自笔者的某条说说 at “2019年4月27日 22:29”

可以由此看出，最早的版本，仅仅局限于提出一种新的语音合成的思路罢了。按照原理来讲，它具有跨语言以及表达丰富且细腻的感情的潜能。

在高中某天参加社团百无聊赖的时候（其实在我写上面那则说说之前），我忽然意识到这种中间状态的思路可以产生很丰富的表现力。就比方说：你完全可以从话语变成语音以及此刻发声器官的样貌、舌头的位置、胸廓的张开程度等等方面的内容。换言之，其会拥有更加细腻的表达能力。

同时，也需要考虑到在模型的表征与展示的形式不可能是同一个（就比方说出现在屏幕与 AR 中这类不同的场景），所以需要定义一系列的更加抽象的标准来去实现。

因此这个没有成形的想法就一直没有丢掉，后面也随着我的学识的增长慢慢完善。

关于名字

至于为什么要起这个名字？……没有什么特别的原因，就随口叫上了（气，灵气的气）

分成两部分说吧。

It startwith Q and endwith y.

前者主要是受一个忘了名字的老哥（字母哥）的影响。刚上外网的时候，那时候是 15 年，对计算机组成原理很感兴趣（原因是想用 Minecraft 的红石做一个可以跑的电脑出来）。刷油管看到个 Logisim CPU（用数字电路模拟软件整的），有个老哥用这玩意儿做演示创建文件的时候就说：

This is a text file called “Q”.

挺好玩的，就用上了。

后者是不想要太过张扬的名字，想整个闭口呼¹的发音。就敲定了 i 或 y 。

Qi 这个词已经有了，大概是「气」的音译。但是这个项目（或者说，企划）和气没什么关系。

就选另一个字母了。

那怎么念呢？

别人怎么念我不管，没什么是必须的。

可以拼出来读，也可以按照qui-/ki-（音标[kʰwɪ]/[kʷɪ]/[kɪ]）来发音，或者可以按照汉语拼音的 qí（注音［ㄑㄧˊ］）来念。

~~IPA是我从 wikipedia 上瞎复制的，嘿嘿嘿~~

阶段

该计划可分为两个阶段：

阶段I —— 木偶

这一阶段仅仅是将内容生成在电脑或其他设备上

对应子计划的 TTV 、 qFa 及 qDan

阶段II —— 看板娘

这一阶段要求能够在特定设备上实时展现，并且能与环境有一定的互动能力

对应子计划的 qDis 和 qEm

注意：仅有在第一阶段完成产生阶段性成果后才可系统地开展第二阶段的研究及设计

官方人设

Cookie/Aphrodite.

核心思路

用自然的原理来重现某些生理特征的思路在结果上是自然的，方法本身也具有可实现性。

说白了就是尽量精细且精确的仿生过程产生出非常自然细腻精细的动作。

四大支柱：

就旁观者而言，动作的产生是由施加动作的主体与环境的互动所产生的结果
- 主体给予的是要执行动作时的「指令」，例如一系列相关运动神经元的放电
- 以「文本转语音」（TTS）为例，主体与环境的互动指的是声带与气流的作用
其中主体与环境的互动的部分机制难以完全复现
- 相关算法的研究进展以及数据采集的难度，限制了在计算机上完全地仿真主体与环境交互的能力
动作的被施加存在意识可控和不可控的成分
- 意识无法极其精确地控制运动，意识也难以使主体完成其能力之外的动作，有道是「人力有穷尽，力所不能及」
需要施加动作主体的当前状态作为感觉
- 对应着上文的「互动」

人话版本

通过仿生学中间参数（如声道状态、肌肉电信号）模拟人类动作生成机制，构建分层协议，将意识指令或提示转化为与环境互动的自然动作。核心目标是解耦动作生成层级，提供通用平台，减少重复开发，实现细腻的情感与动作表达。

cr. Deepseek

SynapticStrings 是啥？

如果说有注意我的 GitHub 账号的话，不难留意到这个。

原来叫 Generic-Qy ，但后来换了这个更酷的名字。

整这出是因为笔者在这个夏天吃了不少虚拟歌姬圈子的瓜（~~说句难听点的，小圈子逼事儿真多~~）。而且在一些群里潜水也发现很有一种B站「开发者」群体的那种小孩子过家家的感觉或者叫特色。

所以选择将原来的 Qy 拆分成两个内容，Qy 继续面向 ACGN ，更偏向于应用领域；另一个是纯粹理论与技术（研究针对哺乳动物的通用模型），与 Qy 受众不同，可能比较「枯燥」。

说实话，两拨人（指搞技术的与和搞艺术的）本来就尿不到一壶去，能和睦相处甚至是都会的真不多，与其聚一块儿养蛊还不如分开。

各自专注于技术与内容生产，倒也算是安稳。

说话来，这个原来的计划是打算通过动物模型来构建原型以测试整个思路的可行性。

就是原型验证加上相关的子计划。

子计划

注：绝大多数计划可能迁移到 SynapticStrings 中， Qy 更加专注 ACGN 领域本身。

名字	仓库名/包名	语言	描述	进度
Vivid Puppet	`vivid-puppet`	Elixir	框架本身	设计 & slide
NSP (Neural Simulate Platform)	`TaroPaste`	Elixir & Rust	提供可扩展的事件驱动平台，使其实现仿生的指令	原型(Glowworm)
Visual Throat	/	Python	基于体外咽喉研究平台构建出的实时声音生成模型	计划 & 无限期暂停（专业限制）
TTV	`text2voice`	Python, Julia	文本转声音（不仅语音），依赖于 NSP 以及 VisualThroat	计划
Cheese Meow	`CheeseMeow`	未定	情感计算与仿真（Emotion Emulation）	计划 & 可行性分析
Qy Editor	SynapticStrings/QyEditor	Elixir	用户界面	原型

其他内容

之前 TTV 的文档

汉语音韵学中，有四呼，分别指开口呼、齐齿呼、合口呼和撮口呼。↩︎

——亟待更新——