AssemblyAI 想让人人都能做定制化语音识别，虽然他们只有三个人

Uploads%2farticles%2f11734%2f1 hn0swohyrhedoc blkxblg

2017-08-14

三人的小团队如何抢占巨头的市场？

如今的语音技术，不仅仅是巨头们争抢的市场，我们也能发现，不少创业公司凭借独有的技术，在巨头纷争的语音市场顽强地前行，AssemblyAI 就是这样的一家创业公司。

AssemblyAI 由硅谷著名创业孵化器 Y Combinator 投资，他们希望通过构建 API 让每个开发者都能快速地开发出定制化的语音交互接口。AssemblyAI 的创始人 Dylan Fox 说：「我们正在构建用于定制化语音识别的 API，开发人员可以用我们的 API 将语音转录成文字或者创建自己的语音接口，而且他们不需要做任何数据上的挖掘和训练，我们会为他们完成海量自定义字词的识别。」

众所周知，语音模型的训练和语音数据的挖掘分析需要耗费大量的人力和资源，非资金雄厚的大公司不能承受，像 AssemblyAI 这样只有三个人的创业公司要做这样一件费时费力又不讨好的事情，确实有点像天方夜谭。

作为前思科工程师，Fox 明白一个创业公司要建立一个定制化的语音识别系统需要面对不小的挑战，但他表示，AI 的进步和机器学习的发展使得他们现在正在做的事情成为可能。

Fox 说，首先，他们需要大量的 GPU ，因为语音模型的训练是计算密集型任务。相比于 CPU，GPU 具有并行度高，内存带宽高，运行速度快等特点，所以 GPU 不仅仅用于图像信息的计算，同时也用于大数据或者 AI 模型训练等需要大量计算的工作。仅靠三人团队的力量获取足够多的 GPU 阵列有些不现实，不过，好在 Y Combinator 给了他们足够多的的帮助，用以构建 GPU 云服务。

除了硬件上的支持，AssemblyAI 技术还需要大量的数据进行训练。作为创业公司，AssemblyAI 无法像 Google 和 Amazon 那样调用大量的用户和数据资源，所以，他们开发了一款叫做 Harvest 的自主架构，用来在网络上收集音频数据。

其实，Harvest 就是一款爬虫软件，它能够在网络上寻找并标注可以用于训练 AI 模型的数据。由于该架构的高准确性，使得 AssemblyAI 可以用高标准的数据来训练模型，在几个星期之内，AssemblyAI 已经收集了数百万条高质量的音频剪辑，用作其神经网络的训练数据。

Fox 表示：「作为创业公司，我们必须开发大量的新技术来实现尖端的 AI 技术，在不久的将来我们还会贡献更多新的想法和技术。」

另外，Fox 认为良好的用户体验也将是他们成功的关键，并且另外找了一个团队专门做前端的开发和优化。「作为一家专注于语音识别技术的小公司，我们可以提供比大公司更好的用户体验，」对于大公司是否会抢占 AssemblyAI 的市场，他是这样回答的，「我们会提供更好的技术文档、更简单的集成方式，帮助开发者快速上手。」

到目前为止，AssemblyAI 的产品还处于测试阶段，有几家公司开始使用他们的 GPU 云服务。有关 AssemblyAI 这家创业公司的最新动态，深圳湾将会持续关注。

语音识别