泓泰

对话Kaldi之父、小米首席语音【yīn】科学家Daniel Povey:开源【yuán】环境比金【jīn】钱和荣誉更【gèng】吸引我 | AGI技术50人

admin

【编者按【àn】】在人工智能【néng】的世界,有一群人正深耕于推动通用【yòng】人【rén】工智能(AGI)从科幻走【zǒu】向【xiàng】现实。CSDN、《新程序员》特别策划“AGI 技术 50 人”访谈栏目,挖掘 AI 背后的思【sī】考,激荡【dàng】 AGI 的智慧,走【zǒu】进那【nà】些在【zài】 AI 领域【yù】不断【duàn】探索、勇于创新的【de】思想领【lǐng】袖和技【jì】术先【xiān】锋们的心路历程。

本期主角Daniel Povey,著名的【de】语音识别开源工具Kaldi的主要开发者和【hé】维护【hù】者,被称为【wéi】“Kaldi之父”,凭借【jiè】在语音识别和声学建模方面的杰出【chū】贡献【xiàn】入选【xuǎn】IEEE Fellow。目前,这位语音识【shí】别技术【shù】大【dà】牛正作为【wéi】小米集团首席【xí】语音【yīn】识别科学家,带领团队开【kāi】发新一代Kaldi,他【tā】认为“开源环境【jìng】比金钱和荣【róng】誉更吸引我”。

作者 | 王轶群
责编 | 唐小引出品丨AI 科技大本营(ID:rgznai100)

北京初春【chūn】,一个微风拂面【miàn】的【de】午后,《AGI 技术【shù】 50 人》栏目团队专程去小米总部【bù】拜【bài】访【fǎng】了Daniel,与他面【miàn】对面【miàn】聊【liáo】了聊加入小米的这四【sì】年半【bàn】,以及他在中国的科【kē】研工作【zuò】及生【shēng】活。目前,他在团队中被人们亲切地称【chēng】呼为Dan。

(《AGI 技术 50 人》编【biān】辑与Daniel在小米办公【gōng】室的合照【zhào】)

Daniel办公桌上的红色咖啡杯里,泡的是中【zhōng】国红【hóng】茶【chá】。春天【tiān】来临,他说【shuō】想换成【chéng】绿茶,却不知道【dào】自己的办公室里早有【yǒu】一个写着“龙井”的盒子。被我们提醒后,他才【cái】发现迟【chí】迟未拆【chāi】的【de】团队礼物,竟然【rán】正是【shì】自己需【xū】要【yào】的【de】春茶。西方礼仪里的及时【shí】拆【chāi】礼物【wù】习惯,让他在【zài】跟我【wǒ】们聊天间就打开了盒子【zǐ】,并且【qiě】迅速【sù】把茶叶倒进杯子,急匆匆要出办公室打热水冲【chōng】泡。

“语音识别恰好是我在做的事”

这位平和谦逊的新一代Kaldi团队领导【dǎo】者,拥有【yǒu】着辉煌的履历和【hé】一流的学【xué】术【shù】背【bèi】景。他【tā】是【shì】剑桥大学的语音识别【bié】博士,曾在【zài】IBM、微软【ruǎn】研【yán】究计算机【jī】语音识别,随后去美国【guó】第一所研究型【xíng】大学【xué】约翰霍普金斯大学担任语言和语音处【chù】理【lǐ】中心的助理研究教授。他【tā】是著名的【de】语音识别【bié】开源工具Kaldi的主要开【kāi】发者和维【wéi】护者,被称为“Kaldi 之父”。

科研、开发【fā】,对于Daniel而言,是越投入越觉得乐【lè】在其中的事。顶【dǐng】着“Kaldi之父”头【tóu】衔的他,对很多事物都【dōu】抱【bào】有浓厚的兴趣,而【ér】“语音识别恰好【hǎo】是我在【zài】做的【de】事”。

Kaldi集成了多种语音识别模型,包括【kuò】隐【yǐn】马尔可【kě】夫【fū】和当时流行的深度【dù】学习神【shén】经【jīng】网络。Kaldi是【shì】第【dì】一个【gè】完全用C++编【biān】写的、基于加【jiā】权有限状态机理论的语音识【shí】别开源软件,其模块化与高度可扩展【zhǎn】性【xìng】设计让【ràng】Kaldi广【guǎng】受【shòu】学术界和工业界的好评,被公认为业界语音识别框【kuàng】架的基石。有关于【yú】介【jiè】绍Kaldi的论文被引用7000多【duō】次,Daniel Povey博士【shì】的【de】论文也被引用了4万【wàn】多次;他还对语音识别做出了许多科学贡献,包括【kuò】助力【lì】判别训练(现在称【chēng】为序【xù】列训练)的早期【qī】发展等。

用开源语音识别工具造【zào】福更多的【de】使用【yòng】者,是Daniel 开发Kaldi的【de】初【chū】心【xīn】:“创建【jiàn】一个语音识别研发平台,使大学研究人员和小公司能够【gòu】获【huò】得与大公司一样好【hǎo】的效果。”

Kaldi自 2011 年发布以来,成千上万的人下载Kaldi,几乎所有【yǒu】的语音团队【duì】都【dōu】在使用Kaldi引擎来开发智能解决方案,包括MIT、哈佛【fó】、清【qīng】华、微软、谷歌【gē】、Facebook等等【děng】。

回忆起【qǐ】Kaldi开【kāi】发之【zhī】初,Daniel说道【dào】:“开发【fā】Kaldi是【shì】在‘深度学习’一词出现之前,最开始Kaldi 使用的是【shì】非神经方法。后【hòu】来,我们为【wéi】适应深度学习添加【jiā】了【le】一些工具。”

随后,Daniel看【kàn】到了技术【shù】飞速发展下Kaldi的【de】局限【xiàn】性。“添加【jiā】了深度学习工【gōng】具后,我发现Kaldi很难以跟上【shàng】深度神【shén】经网络库cuDNN 等【děng】现代工具和模型架构的最新发【fā】展的【de】方式来维护【hù】这些添加的【de】工具。即便有些人仍然【rán】使【shǐ】用Kaldi的部分内容,但这些模型目前无法与最新的深度【dù】模型【xíng】竞争。”

说【shuō】到为【wéi】什么还要着力研发新【xīn】一代【dài】Kaldi,Daniel表示【shì】随着【zhe】深【shēn】度【dù】学习技术【shù】的发展以及硬件算力【lì】的提升,智能语音领【lǐng】域也进入到一个新的发展阶段,Kaldi 也需要不断更新以适【shì】应【yīng】新的应用场景和技术趋势【shì】。

模型从深度神经网络【luò】DNN,到用于【yú】语【yǔ】言的循环神经网络RNN,再到【dào】Transformer架构,发展迭代【dài】得非常迅速。“我逐渐认识到【dào】,让当前的产品像初代Kaldi那时一样受欢迎是不现【xiàn】实的。因为【wéi】现【xiàn】在【zài】有【yǒu】这【zhè】么【me】多【duō】的产品去选择。”Daniel表示。

2017年发布的Transformer架【jià】构,极大地改变【biàn】了人工智【zhì】能各细【xì】分【fèn】领域所使用的方【fāng】法,并发展成为今【jīn】天几乎所有【yǒu】人工【gōng】智【zhì】能任务的基本模【mó】型。Daniel认为:“在一致的训练方法中,机器学习也【yě】变得越来越相似。过去,研究计算机视觉的人使用的是与语音【yīn】识别研究【jiū】完全不同的方法,而现在【zài】几【jǐ】乎每个【gè】人都【dōu】在使用Transformer。如今【jīn】,Transformer架构【gòu】的强大通用技术能力,使得解决【jué】一项特定【dìng】的目标的技术边【biān】界变【biàn】得【dé】不再清【qīng】晰。”

其【qí】实,早在2019年,Daniel就注【zhù】意【yì】到Transformer架构的潜力,并判【pàn】断构建通用【yòng】基础模型的【de】时机已经【jīng】到【dào】来。2019年10月Daniel Povey加入小米【mǐ】成立了新一【yī】代【dài】Kaldi团队(NEXT-GEN KALDI),宣布将打造【zào】新一代Kaldi。相【xiàng】较于之前,新一代Kaldi将兼具Kaldi效【xiào】率与PyTorch灵活性。

“新一代 Kaldi 的最初目标是【shì】开发一些与【yǔ】现代深度【dù】学习【xí】框架【jià】兼容的语音识【shí】别【bié】工【gōng】具,尤其是【shì】与PyTorch框架兼容。”Daniel解释道【dào】,“随着项目的开发,其最重要的部分【fèn】已【yǐ】经成【chéng】为基于 Python 的结【jié】构,即一个名为 Icefall 的项目。”

Daniel 表示,他和他的新一代Kaldi团队【duì】“可【kě】能会开始更【gèng】多地关注【zhù】 TTS”。这【zhè】是Text To Speech的缩写,即“从文本【běn】到语音”,是【shì】人机对话【huà】的一【yī】部分,让机器能够说话。他【tā】解释道:“因【yīn】为现在【zài】的【de】开发阶段【duàn】似乎很【hěn】难对自动语音识别(ASR) 产生影响,除非通过构建巨大的【de】模型。”

2021年他以小【xiǎo】米集【jí】团首席语【yǔ】音科学家的身份再【zài】次亮相【xiàng】,推出了新一【yī】代Kaldi。2022年12月【yuè】,他【tā】凭借在语音识别和声学建模方【fāng】面的杰出贡献入选IEEE Fellow。

带领新一代Kaldi团队翻越山丘

坚持【chí】开源,是【shì】新一代 Kaldi与前一代一脉相承的底色【sè】。这是 Daniel 坚持 Kaldi 开源【yuán】的【de】期望,也是【shì】小米积极拥【yōng】抱【bào】开源的【de】初心。“开源【yuán】对每个人【rén】都有帮助,无法想象【xiàng】现代机器的发展离【lí】开【kāi】开【kāi】源的样子。”Daniel 表示。

这条开源之路,依然任重道远。

不同于以往,Daniel不再【zài】孤军奋战。“在小米【mǐ】,我【wǒ】有一个团队【duì】”Daniel表【biǎo】示,这【zhè】是他在小米工作与IBM、微【wēi】软的最大不【bú】同之处。Daniel带领着团队不断翻越山【shān】丘。

如果把一个AI应用比喻为一座【zuò】冰山,那用【yòng】户所能感知到的应用界面【miàn】就是暴露在“海平面”之上【shàng】的【de】冰峰,强有【yǒu】力地托【tuō】起这【zhè】些应【yīng】用的核心和【hé】庞大的技术基【jī】底,则是【shì】被深埋在【zài】“海平面”之下。而Daniel正是个庞大技术基地的核【hé】心构建者。

“我们现在【zài】正【zhèng】试图将重【chóng】点放在设备【bèi】部【bù】署上。因为一些公开【kāi】可【kě】用【yòng】的模型存在问题【tí】,它们太大【dà】了,以至【zhì】于你【nǐ】无法真正将【jiāng】其部【bù】署在小型设备上【shàng】。”对于当前【qián】市场中的语【yǔ】音识别产品,比【bǐ】如OpenAI Whisper,Daniel认为同样【yàng】如此,将其部【bù】署在如手机这样的设备上并【bìng】非一件【jiàn】容易【yì】的事。这也是新一代Kaldi团队模型开发的长处所在。他说:“我们的模型确实比常【cháng】用【yòng】的模型,例【lì】如Transformer,具有一【yī】定的优势。”

Daniel表示:“我们已经【jīng】提出【chū】了【le】一些小的方【fāng】法,带来一些细微的改进。在机【jī】器学习中,我【wǒ】们有【yǒu】一个新的非【fēi】线性激活函称作‘Swoosh’,以及一个【gè】新的标准化模块【kuài】称作‘BiasNorm’。我们还没有花【huā】很多精力推广这些新方法,只是【shì】把它们作【zuò】为我【wǒ】们之【zhī】前Zipformer模型论【lùn】文整体的一【yī】部分来发表。我一直在努力去实现一些大【dà】的突【tū】破。”

Daniel在小【xiǎo】米研发的新一代 Kaldi是【shì】一个【gè】开源的智能【néng】语音【yīn】技【jì】术工具集,包含核心算法【fǎ】库k2、通用语音数据处理【lǐ】工具包Lhotse、解决【jué】方案集合Icefall以【yǐ】及服务【wù】端引【yǐn】擎【qíng】Sherpa四个子项目,开发者可以基于这些工具【jù】集轻松定制自己【jǐ】的【de】智【zhì】能语【yǔ】音【yīn】应用。在Daniel的带领下,团队搭建出了新【xīn】一【yī】代Kaldi通用【yòng】技术基底,包括:

全新声学编码器:Zipformer

Zipformer是一【yī】个应用【yòng】Attention机制的通用【yòng】声学编码器,不【bú】仅可以用在语音领域,其在文本【běn】和图像任务上也同【tóng】样适【shì】用。Zipformer具有效果更【gèng】好、计【jì】算更快【kuài】、更省【shěng】内存等【děng】优点,这使得Zipformer模型非常适合于低【dī】资源设备【bèi】端部署。

首创神经网络优化器:ScaledAdam

全新升【shēng】级的神【shén】经网络优化器——ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器Adam的基础上,引【yǐn】入了可学习的缩【suō】放因【yīn】子,实现【xiàn】了网络训练时间【jiān】大幅【fú】缩短【duǎn】。而【ér】且ScaledAdam与Adam一样,是一个通用的网【wǎng】络【luò】训【xùn】练优化器。

业【yè】界最快Transducer 损失函数:Pruned RNN-T

新一代【dài】Kaldi团队还【hái】研发了业界【jiè】最快的Transducer损失函数【shù】——Pruned RNN-T。实验数【shù】据【jù】显示,相比【bǐ】PyTorch中【zhōng】实现的RNN-T损失函数,Pruned RNN-T 损失函数在【zài】仅使用1/5显存【cún】的基【jī】础上,取得了约10倍的速度提升。

有限状态转换器:可微分 FST

可微【wēi】分FST(Finite State Transducer)是一【yī】个【gè】有限状态转换器,可以【yǐ】构【gòu】建复杂的【de】语言处【chù】理模型【xíng】。新一【yī】代 Kaldi 团队创造【zào】性地实现【xiàn】了运行于GPU的可微分有限状态机,使开发【fā】者【zhě】只需要【yào】在外部构建好图的拓【tuò】扑【pū】结构,将【jiāng】其他的一切计算和训练的部分【fèn】交给【gěi】k2引擎, 从而降低建模的工作量,提高灵【líng】活性。此外,新一代Kaldi团队还实现了基【jī】于GPU的状态【tài】机解码方法,实现了语音识【shí】别解码的全链路GPU加【jiā】速。

Daniel强调:“其中,Zipformer与其他技术相比,为新一代Kaldi提供了最大的改进。”他表示:“我【wǒ】们还【hái】在研究一种新型的【de】辅助损失【shī】函【hán】数,看【kàn】起【qǐ】来它【tā】可能会带【dài】来很【hěn】大的改善【shàn】,但我们还没【méi】有发布【bù】它。”

此【cǐ】外,新一【yī】代 Kaldi团队还有其【qí】他技【jì】术成果,如近乎零【líng】成本的知识【shí】蒸馏【liú】技【jì】术,让小【xiǎo】模【mó】型【xíng】也【yě】能学习到大【dà】模型的本【běn】领;基【jī】于时延惩罚的低时延端到端模型的训练方法【fǎ】;PromptASR语音识别系统;高【gāo】效数据集构建方案textsearch; 全平台语音任务服务引擎Sherpa,等等。

那么,新一【yī】代Kaldi与上一代相比,其优势在哪?“实际【jì】上,新一代Kaldi可能【néng】会与基于PyTorch的其他解决方【fāng】案进行更直接【jiē】的【de】竞争【zhēng】,例如ESPNet或【huò】SpeechBrain或预训练的大模型。我怀【huái】疑目前【qián】使用Kaldi(或其【qí】中一部分)的人【rén】大多是【shì】出于【yú】其【qí】遗【yí】留原因而【ér】这样做【zuò】的。”Daniel表示。

千里之行,积于跬步。对于Daniel来说,日【rì】常【cháng】项目【mù】的微小【xiǎo】进度在于将语音【yīn】识别的【de】精【jīng】确度提【tí】高10%,“这10%很难被用户察觉”。而小【xiǎo】米集团早【zǎo】已看见了【le】该【gāi】团【tuán】队的努【nǔ】力与付出。2023年,Daniel的新【xīn】一代Kaldi团队以其创新技术成果在小米集团的年度技【jì】术大奖评选中【zhōng】获得二等【děng】奖。

“我们已经提出了许【xǔ】多有趣的技术问【wèn】题,也是我【wǒ】们发布的【de】Zipformer模型【xíng】的一部分【fèn】。我【wǒ】们【men】的模型开始被小米的产品团队使用。他们现在开【kāi】始【shǐ】部署我们的模型,包括中【zhōng】文和其他语【yǔ】言的【de】语【yǔ】音识别模型,主要优势是提高精度以【yǐ】及减少计算量。”Daniel 表【biǎo】示,对自【zì】己的语音【yīn】识别模型在【zài】小米产品及小米生态中被【bèi】部署【shǔ】应用感【gǎn】到十分开【kāi】心。“在与【yǔ】产【chǎn】品【pǐn】团队的良好配合下,我们能够实现【xiàn】模型的高效【xiào】部署,目前训【xùn】练【liàn】使用模型的速度更快,识别也【yě】更加精确。”

作为一个基础引擎【qíng】,新一代 Kaldi可在语音交【jiāo】互层面【miàn】有力赋能【néng】小米“人车家【jiā】全生【shēng】态”新战【zhàn】略【luè】。以【yǐ】座舱为例,使用新一代Kaldi引擎【qíng】后,座舱的语音识别【bié】的性能进一【yī】步【bù】提升,服务器【qì】成本也降【jiàng】低一半。不【bú】仅能服务【wù】于【yú】语音任务,新【xīn】一代Kaldi还可广泛【fàn】地适用于各种【zhǒng】AI任务。目前【qián】,团队首创的ScaledAdam优化器已经用在了小米自研大模【mó】型中。

同时,新一代Kaldi的出现正在【zài】对各【gè】行各业带来助力。在智【zhì】能家居领【lǐng】域中,通【tōng】过使【shǐ】用新【xīn】一代Kaldi技术,人【rén】们可以【yǐ】通过【guò】语音【yīn】指令控制家【jiā】电【diàn】设备、查询天气、播放【fàng】音乐等;在教育行业中,可以对学生进行口语【yǔ】测试和纠正,提【tí】高学生【shēng】的口语表【biǎo】达和听力理解【jiě】能力;在医疗行业中,可以实现自动化的【de】病【bìng】历记录【lù】和诊断,提高医疗行业的效【xiào】率【lǜ】。

Daniel在中国

“一直以来,全球人工智能有关的【de】项目【mù】都有一定比例的中国研究人员,但【dàn】最近【jìn】十年左【zuǒ】右的新情【qíng】况是,越来【lái】越多有趣【qù】的新研【yán】究【jiū】来自在中国工作的中国人。” 四年半的【de】时间里,Daniel对中国的兴趣日渐【jiàn】浓厚。

在小【xiǎo】米,Daniel还【hái】是一如既往地延续着工作狂的【de】风【fēng】格,即便目前处在一个低【dī】压放【fàng】松的工【gōng】作环【huán】境中。一心一意扑在研发和新【xīn】一代Kaldi团队领【lǐng】导工作上的【de】他,并【bìng】没有多少时【shí】间健【jiàn】身,甚至没【méi】有很多时间与朋友【yǒu】出游。靠【kào】近电【diàn】脑桌的地【dì】方摆了一架电【diàn】子琴,他把仅有的娱乐活【huó】动搬到了办公室。

在团队【duì】中,Daniel是一位谦逊、亲切且善于思考的领导者。“我【wǒ】在【zài】这样一间宽敞的办公室,我的团【tuán】队成【chéng】员却坐在外面【miàn】并排的【de】工位上,我总是因此而感到歉疚。”对团队成员关怀【huái】备至【zhì】的【de】他,总是把研【yán】发【fā】的责【zé】任揽到自己身上。“我拥【yōng】有一个强大【dà】的团队,这里【lǐ】的人都非常好。”全身心投入研【yán】发【fā】的Daniel,认为阅读【dú】研究论【lùn】文“往往会分散【sàn】注意力”,有时没能及时跟进技术动【dòng】态,导致他【tā】“重新发明了【le】别人【rén】已【yǐ】经发明的东西”,还是团队【duì】的伙伴分享【xiǎng】给【gěi】他相关的论文以供参【cān】考。

(Daniel身穿“NEXT-GEN KALDI”文化衫站在陈【chén】列柜【guì】前)

Daniel曾经【jīng】编程速度很快,人们一度很【hěn】难跟上他的【de】步伐,而如【rú】今他并不会花很【hěn】多时间在代码【mǎ】上。在【zài】新一代Kaldi团队中,有一位实力【lì】强劲的程【chéng】序员小【xiǎo】哥叫匡方【fāng】军【jun1】,Daniel称其编程速度“非常快”。据了解【jiě】,匡方军是新一代Kaldi团队【duì】的初始成员之【zhī】一,也【yě】是其子项目【mù】Sherpa的主要维护者。团队的小伙【huǒ】伴【bàn】说他编程功底深厚【hòu】,对项目付出了【le】很多。同时【shí】他也是和Daniel风格特别像的一名程序【xù】员,在团队中颇有人气【qì】。

(Daniel的书【shū】架上摆放着【zhe】自己【jǐ】与团队【duì】的合照、可【kě】爱【ài】的中西摆件和一本《高效能人士【shì】的七个习惯》)

有【yǒu】时【shí】,工作计划会【huì】不可避【bì】免地存在调整,导【dǎo】致整体进度放【fàng】缓,Daniel对此表示【shì】“这完全是我的责任【rèn】”,并及时复盘,继续带领团队不【bú】断攻【gōng】克难【nán】关【guān】。在项目的推进中,他对产品和市场有了更深【shēn】入的认知,并且逐步明确了努力的方向。

对【duì】于压【yā】力,他说尽管人们可能会在高压【yā】的环境下【xià】产【chǎn】出很多,但低【dī】压的【de】环【huán】境令人愉悦,让他和他的团队可【kě】以去开始思考并【bìng】追求有趣的【de】事。“我觉得【dé】我会倾【qīng】向于沉迷不同的事情,通常【cháng】情况下是不同的【de】工【gōng】作项目。”Daniel表示,“我对别人对我的看法【fǎ】不【bú】是那么敏【mǐn】感【gǎn】。所以不要在乎别人怎么想【xiǎng】,只要知道【dào】自己在做什么就行【háng】了。”

对【duì】科技敏感【gǎn】,对【duì】人际并不敏【mǐn】感的Daniel,通常会【huì】给自己【jǐ】在小米【mǐ】的助理Liliana带【dài】来不小的工作挑【tiāo】战。在团队成员的眼中【zhōng】,她已经升级为Daniel在中国的全面助理,协助处【chù】理工作与【yǔ】日常大【dà】小事务【wù】。在办公室墙上的白板,除了满【mǎn】屏的工【gōng】作想【xiǎng】法,Daniel打趣地写下了“Dan惹恼Liliana的第X天”的字【zì】样。

(Daniel办公室的白板上写满了有趣的想法与演算)

在小米的四年半时【shí】间里,中国饮食和中国文【wén】化已经融入了他的生活。对于Daniel来【lái】说,中西差异【yì】并不对他构成【chéng】文化冲击,他在国外做【zuò】大【dà】学教【jiāo】授【shòu】期间【jiān】已【yǐ】接触过【guò】诸多中国学生。对 Daniel 来说,中国人和中国文化【huà】早已十【shí】分亲切。

Daniel 喜欢【huān】的中国美食,并【bìng】非大众【zhòng】喜爱的火锅,而是与西方牛【niú】排有【yǒu】共同之处【chù】的烤肉、羊排【pái】、排骨等整块烹制的肉类。每【měi】天中午,他在小米成立的新一代Kaidi团队【duì】同事们,就会拉着他一【yī】起去小米的【de】食堂【táng】吃中餐【cān】。他的体态比【bǐ】四【sì】年前的【de】清瘦模样【yàng】显然圆【yuán】润了【le】一些,肠胃早已【yǐ】适【shì】应中餐。

(Daniel 办公室里摆放着中国传统工艺品)

办公桌一侧的陈【chén】列柜里,摆放【fàng】着许多有关语音识【shí】别、声音建模、团【tuán】队【duì】进步的【de】奖杯。他表示,自己【jǐ】并不【bú】在【zài】意获得了多少奖【jiǎng】项【xiàng】,而是在意这【zhè】里开放、包容、尊【zūn】重的工作氛围,以及【jí】小米【mǐ】对开源项目的提倡与重视,这正是他在小米的伯乐崔【cuī】宝秋所【suǒ】倡导的。

多年来,Daniel一直在寻找一个【gè】适【shì】合自己搞【gǎo】科研的【de】环境。在【zài】这【zhè】里,他找到了。2019年他加【jiā】入小米【mǐ】时,向崔宝秋【qiū】提到的“我并不需要很高的薪水”一度【dù】被媒体【tǐ】广泛传播。如今,他【tā】依【yī】旧持有一样【yàng】的态度。在他看来,金钱并非排在第【dì】一位。

“比如【rú】家人的陪伴就比【bǐ】金钱重要的【de】多。现在的年轻【qīng】人对【duì】薪【xīn】资看得太重了。我【wǒ】认为年【nián】轻人【rén】不【bú】必那么追求高薪,反而应该【gāi】在合适的时候组建家庭,抚【fǔ】养下一【yī】代。”

2023年暑期【qī】,他将自己的小【xiǎo】女儿接来中国【guó】上学。在中国,他也有【yǒu】了【le】亲【qīn】情的陪伴【bàn】。女儿【ér】也在逐渐适应中国的教育氛围。自【zì】己【jǐ】的女儿曾在美国吐槽学校【xiào】对学业并不是那么认【rèn】真,而来【lái】中【zhōng】国周围的人对于学习【xí】的态【tài】度有【yǒu】点过于【yú】严【yán】肃【sù】,以至于没【méi】多少人会提【tí】倡打【dǎ】破规则。“像【xiàng】我一样,她也有很强的个【gè】性。”应试教【jiāo】育往往【wǎng】通向中国父母所期盼的名牌大【dà】学【xué】。而Daniel认为女儿不必跟随自己去上剑桥,选择一所适合她的【de】即可。

“那些有极高薪水【shuǐ】和地位的人,并不【bú】一定过得【dé】开心【xīn】。”Daniel表【biǎo】示【shì】。他的核心乐趣,无疑是声音建模和语音识别技术【shù】研【yán】发。

放眼AGI未来,提倡技术与人的正和游戏

就像【xiàng】Transformer的【de】创造者提出寻求更高效节能的架构一样【yàng】,Daniel也以发展的眼光【guāng】看待自【zì】己缔【dì】造【zào】的一【yī】代传奇。

对于Kaldi的广【guǎng】泛使【shǐ】用,Daniel表示:“人们【men】一直在【zài】更【gèng】换工具,所以【yǐ】我的【de】感觉是,人们可【kě】能不【bú】会使用【yòng】很多我们的代码。虽然有时人们仍【réng】然在他们的解码【mǎ】器逻辑【jí】中,保留一【yī】些Kaldi代码,即便他们【men】的主要【yào】模型是用PyTorch或其【qí】他【tā】别的构【gòu】建的。我认【rèn】为现代的【de】趋势【shì】是【shì】简化这种代码并使用通用的【de】机器学习方法。或许,使用者【zhě】的计划是最终不必使用Kaldi,因为他们正【zhèng】在【zài】使用【yòng】一些非常通用的机器学习方法,这些方法不【bú】仅针对语音【yīn】识【shí】别。只【zhī】是目前,Kaldi仍然在被使用【yòng】。”

“我【wǒ】着眼于未【wèi】来【lái】。”Daniel 表示,他们正在尝【cháng】试【shì】提出一【yī】些新的有趣的事物,甚至【zhì】是应用机器学习的新范畴。“如【rú】今,语音识别【bié】似乎已趋向成为一种商品【pǐn】或已解决【jué】的问题,所以我希望能找到机【jī】器学习【xí】的一些新应用,这在某些【xiē】方面可能更【gèng】令人【rén】兴奋。”

在广义的人工智能发展范畴上,Daniel认为语音识别在【zài】大【dà】多数应用中仅占很小【xiǎo】的一部分。他并不担【dān】心【xīn】技术会取代人类【lèi】的大部【bù】分【fèn】工作,至【zhì】少不会取代【dài】那些需要职业资格证的工【gōng】作,毕竟【jìng】很【hěn】多工【gōng】种都【dōu】在到职业许可认证和法律保护的范【fàn】围【wéi】内。

“人工智能【néng】在【zài】娱乐或语言生【shēng】成等方面有【yǒu】很多应用,在这【zhè】些领域【yù】人工智【zhì】能在帮我们做‘零【líng】和游戏’。”他【tā】列举【jǔ】了一个律【lǜ】师【shī】的例【lì】子:如果律师【shī】有机会接触人工智能,他们将变得更【gèng】有效率。这样【yàng】的情【qíng】况下,他们只是在与另一个律师团队【duì】对抗,而【ér】实际的总【zǒng】生产力不会改变,因为他们【men】和他的【de】对【duì】手都【dōu】擅长在同一领域展开竞技【jì】。“我们只是【shì】在更【gèng】努【nǔ】力地互相争斗。这个道理同样适用于战争。”Daniel认为,在【zài】零和【hé】游戏的设【shè】定【dìng】上,人工智能会【huì】一【yī】定程【chéng】度上加速人类能【néng】力的“内卷”。

Daniel认【rèn】为“人工智能应用在工业、农业或者矿业将更有【yǒu】趣,因为在这里并不是一【yī】场【chǎng】‘零和【hé】游戏’”。他【tā】更【gèng】提【tí】倡的是,人与技术的【de】正和游戏【xì】。在【zài】博弈论上【shàng】,正和游戏【xì】意味着二者【zhě】相加的和并非归零,而是双赢互【hù】惠【huì】的结果,参与者的利益是相【xiàng】互一致的,一方的【de】利益增加不【bú】会导致【zhì】另一【yī】方的利益减少。

在即将【jiāng】到来【lái】的2024全球机器学习技术大会(ML-Summit 2024),Daniel准备带【dài】来有关“The Current Moment in AI”的主题演讲。他想借助【zhù】这【zhè】个【gè】机会,帮【bāng】助人们后退一步纵览LLM的目前的【de】发展【zhǎn】,从一个更大【dà】的视角来看到【dào】最近【jìn】风【fēng】靡的大模型只是人工【gōng】智能【néng】发展中许多改进的一【yī】个【gè】。同时,Daniel还想从技术【shù】的角【jiǎo】度,结合【hé】自己的语【yǔ】音研究实践,谈一谈人工智能会对人类命运【yùn】产生的【de】影响。

Daniel认【rèn】为计算、内存和存储的成本会随着时间的推移而下降,但下降的速度【dù】不会那【nà】么快,效率仍然是任何产品【pǐn】的一个问题。“这意味着我们可能【néng】不【bú】想【xiǎng】部署太【tài】大或太【tài】通【tōng】用【yòng】的模型。当然,我们仍然【rán】可以使用更【gèng】大【dà】的模型作为【wéi】训练过【guò】程的一部分,例如在师生学习中【zhōng】。到目前为止,人们还没有能够从【cóng】LLM那里【lǐ】获得ASR准【zhǔn】确性【xìng】方面的太大改进【jìn】。但【dàn】这【zhè】可能会【huì】改变。”Daniel表示,“就我个【gè】人【rén】而言,我不喜欢花太多时间处理【lǐ】非【fēi】常大的模型,因为它限制了你在实【shí】验【yàn】方面【miàn】的选择【zé】。”

作【zuò】为人工智能语音识别的先驱,谈及对【duì】于广大开发者的【de】寄语时,Daniel认为应该将目【mù】光【guāng】放【fàng】长远【yuǎn】,不要拘泥【ní】一格。“我倾【qīng】向【xiàng】于建议人们【men】学【xué】习一些通用【yòng】的【de】机器【qì】学【xué】习技能【néng】,例如去确保知道如【rú】何使用PyTorch一类的工具。机器学习方向正朝着在不同的【de】任务中使【shǐ】用相同的方法而发展。我想知道【dào】在未来拥有过于狭窄的【de】专业知识将是否是一【yī】件有益的【de】事【shì】,只拥有语音相关的知【zhī】识或许将过【guò】于【yú】狭隘。不过,对于大多数【shù】人来说,掌【zhǎng】握通用知【zhī】识已不是难事,因为人们已经在使【shǐ】用可用于其他【tā】领域的方法【fǎ】了【le】。”

最近【jìn】,OpenAI推出【chū】的文生视频大【dà】模型Sora自【zì】推出后【hòu】热度【dù】持【chí】续增长,带动了行业中多个复现Sora项目的产生与迭代【dài】。对于Sora是否意味着AGI会【huì】加【jiā】快到来【lái】的问题,Daniel 表示肯定。“Sora解决了【le】一个非常具体的视频生成问题。我认为这【zhè】与通用智【zhì】能完【wán】全不同。我并不是真【zhēn】的担心,我【wǒ】认为这将是一条【tiáo】非常【cháng】缓慢的道路。如果【guǒ】上网搜索,你可能会发【fā】现,很多【duō】搜索结果都【dōu】是人【rén】工智能产生的【de】垃圾【jī】,你必须非常有知识才能区分真正的【de】垃【lā】圾。未来很多语言【yán】模型【xíng】的质【zhì】量可能变得更糟,除非【fēi】他们找到一【yī】种方法来过滤掉那【nà】些坏数据。”

放【fàng】眼未来,Daniel没有对人工智能【néng】的发展【zhǎn】持悲【bēi】观态度【dù】。“人【rén】工智能失控并不可怕,可【kě】怕的是人工智能受制于不【bú】同目的的人。”比如将人【rén】工智能【néng】用【yòng】于战争,在他【tā】看来反倒【dǎo】可以减少人类士兵的牺【xī】牲,但若被怀揣目的的人【rén】的过度【dù】使用【yòng】,确实会造成不良后【hòu】果。他认为技【jì】术的发【fā】展【zhǎn】取决于其【qí】缔造者和使用者。

人工智能语音【yīn】识别技术,在 Daniel 这【zhè】样一群可爱【ài】又【yòu】可【kě】敬的【de】科研人员的带领下,相信也【yě】会取得令人满意的【de】成果。

采访后记

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和【hé】教育平台 Boolan 联合主办【bàn】的「2024 全球机器学习技术大会【huì】」在上海再度启幕第一站,汇聚来自全球近【jìn】 50 位在机【jī】器【qì】学习技【jì】术研发及行【háng】业应【yīng】用领域的领【lǐng】军【jun1】人物【wù】和知名【míng】专家,携手【shǒu】搭【dā】建一个【gè】专属【shǔ】于全【quán】球机器学习与人工智能【néng】精英的【de】高层次交流与分享舞台【tái】。

标签: #魔兽争霸3冰封王座转换器124e