Qy 计划的介绍
人话:做个会动会唱歌有表情的小姐姐。
早期想法
最原始的想法是想通过某种方法来尽可能的实现一个能够覆盖人类发声器官所能出现的绝大多数的声音的模型。
之前在看语音合成的相关资料的时候,想出了一个通过重现发声而不是对音频进行处理来生成音频的思路,并且试图再深入想了一下,但是因为对发声同时其他数据的采集的难度而暂时放弃。然后,今天刷知乎的时候,发现有人已经按照这个思路搞出来并且把论文发到 Nature 了,而且比我的想法更进一步:通过对发声相关的运动皮质的信号的采集,通过两个 RNN 模型(声道参数为其中间参量,其生成使用了其他大量的数据库)生成语音。生成的音质及准确率较以往的其他模型要好。
来自笔者的某条说说
at “2019 年4 月27 日22:29 ”
可以由此看出,最早的版本,仅仅局限于提出一种新的语音合成的思路罢了。按照原理来讲,它具有跨语言以及表达丰富且细腻的感情的潜能。
在高中某天参加社团百无聊赖的时候(其实在我写上面那则说说之前
同时,也需要考虑到在模型的表征与展示的形式不可能是同一个(就比方说出现在屏幕与
因此这个没有成形的想法就一直没有丢掉,后面也随着我的学识的增长慢慢完善。
关于名字
至于为什么要起这个名字?……没有什么特别的原因,就随口叫上了(气,灵气的气)
分成两部分说吧。
It startwith Q
and endwith y
.
前者主要是受一个忘了名字的老哥(字母哥)的影响。
刚上外网的时候,那时候是
This is a text file called “Q”.
挺好玩的,就用上了。
后者是不想要太过张扬的名字,想整个闭口呼1的发音。 就敲定了 i
或
y
。
Qi
这个词已经有了,大概是「气」的音译。
但是这个项目(或者说,企划)和气没什么关系。
就选另一个字母了。
那怎么念呢?
别人怎么念我不管,没什么是必须的。
可以拼出来读,也可以按照
阶段
该计划可分为两个阶段:
- 阶段
I —— 木偶
这一阶段仅仅是将内容生成在电脑或其他设备上
对应子计划的
- 阶段
II —— 看板娘
这一阶段要求能够在特定设备上实时展现,并且能与环境有一定的互动能力
对应子计划的
注意:仅有在第一阶段完成产生阶段性成果后才可系统地开展第二阶段的研究及设计
官方人设
Cookie/Aphrodite.
核心思路
用自然的原理来重现某些生理特征的思路在结果上是自然的,方法本身也具有可实现性。
说白了就是尽量精细且精确的仿生过程产生出非常自然细腻精细的动作。
四大支柱:
- 就旁观者而言,动作的产生是由施加动作的主体与环境的互动所产生的结果
- 主体给予的是要执行动作时的「指令
」 ,例如一系列相关运动神经元的放电 - 以「文本转语音
」 (TTS)为例,主体与环境的互动指的是声带与气流的作用
- 主体给予的是要执行动作时的「指令
- 其中主体与环境的互动的部分机制难以完全复现
- 相关算法的研究进展以及数据采集的难度,限制了在计算机上完全地仿真主体与环境交互的能力
- 动作的被施加存在意识可控和不可控的成分
- 意识无法极其精确地控制运动,意识也难以使主体完成其能力之外的动作,有道是「人力有穷尽,力所不能及」
- 需要施加动作主体的当前状态作为感觉
- 对应着上文的「互动」
人话版本
通过仿生学中间参数(如声道状态、肌肉电信号)模拟人类动作生成机制,构建分层协议,将意识指令或提示转化为与环境互动的自然动作。核心目标是解耦动作生成层级,提供通用平台,减少重复开发,实现细腻的情感与动作表达。
cr. Deepseek
SynapticStrings 是啥?
如果说有注意我的
原来叫 Generic-Qy
,但后来换了这个更酷的名字。
整这出是因为笔者在这个夏天吃了不少虚拟歌姬圈子的瓜(说句难听点的,小圈子逼事儿真多
所以选择将原来的
说实话,两拨人(指搞技术的与和搞艺术的)本来就尿不到一壶去,能和睦相处甚至是都会的真不多,与其聚一块儿养蛊还不如分开。
各自专注于技术与内容生产,倒也算是安稳。
说话来,这个原来的计划是打算通过动物模型来构建原型以测试整个思路的可行性。
就是原型验证加上相关的子计划。
子计划
注:绝大多数计划可能迁移到 SynapticStrings
中,
Qy
更加专注
名字 | 仓库名 |
语言 | 描述 | 进度 |
---|---|---|---|---|
Vivid Puppet | vivid-puppet |
Elixir | 框架本身 | 设计 |
NSP (Neural Simulate Platform) | TaroPaste |
Elixir & Rust | 提供可扩展的事件驱动平台,使其实现仿生的指令 | 原型 |
Visual Throat | / | Python | 基于体外咽喉研究平台构建出的实时声音生成模型 | 计划 |
TTV | text2voice |
Python, Julia | 文本转声音(不仅语音 |
计划 |
Cheese Meow | CheeseMeow |
未定 | 情感计算与仿真(Emotion Emulation) | 计划 |
Qy Editor | SynapticStrings/QyEditor | Elixir | 用户界面 | 原型 |
其他内容
汉语音韵学中,有四呼,分别指开口呼、齐齿呼、合口呼和撮口呼。↩︎