2022年中国智能语音转写行业研究报告
来源 | 艾瑞咨询2022-12-28 18:06:07
近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模

核心摘要:

智能语音产业发展:近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模走高。部分智能语音产品如语音助手、语音转写、智能客服等取得产品价值突破或商业上的显著成就,语音识别相关产品多已进入稳步上升期。但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。

智能语音转写产品:语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,附加产品服务、多语种翻译、内容分析等智能化功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、自定义热词配置、声纹角色分离、语音内容分析提取等功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。

智能语音转写市场:在人力成本、协同办公、传媒音视频、会展交流、跨国沟通等多重因素驱动下,中国智能转写市场不断注入需求活力,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬,预计2026年市场规模将达到38亿。从产品形态来看,智能转写产品主要包括SaaS类产品与本地化部署解决方案两大类。其中,SaaS市场头部聚集效应显著,讯飞听见与搜狗听写位列第一梯队,讯飞听见在转写准确率尤其是小语种和方言等、产品丰富度、品牌影响力和发展潜力维度拔得头筹。未来,SaaS形式API调用与垂类解决方案将形成合力,构成智能语音转写产业既快且稳的增长飞轮,高生态活性加硬解决方案实力的企业将更能突出重围,抢占更多增量市场。

智能语音转写趋势洞察:从技术趋势来看,语音识别技术的精度和速度仍取决于实际应用环境,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音转写技术应用仍有待突破;从场景价值来看,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务;从厂商策略来看,各家将以构建自身产品生态,加强外部场景合作为策略核心,基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。


智能语音产业的宏观背景

数字信息输入输出的重要载体,人工智能产业落地“先锋军”

智能语音技术指通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等技术形成完整的人机语音交互流程,是实现人与机器交流的纽带,也是数字信息输入与输出的重要载体。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。作为人工智能产业落地的“先锋军”,智能语音产业得到了国家和地方政策的有力支持,且随着参与者不断进入智能语音赛道,“百舸争流,千帆竞发”,产业技术水平和产品竞争力不断提高。


智能语音产业的产品成熟度

语音识别相关产品多已进入稳步上升期

人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。后随着近场语音识别准确率提升、远场语音识别和唤醒发展、全双工语音交互出现、基于NLP的对话和问答能力逐渐成熟、知识图谱技术助力对话引擎以及针对实际应用中的算法优化,智能语音技术的落地可用性不断突破。但其背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”。因此尽管部分智能语音产品如语音助手、语音转写、智能客服等已取得了产品价值突破或商业上的显著成就,但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题


智能语音转写的定义与分类

语音识别产品的重要输出形态,分为实时与非实时语音转写

语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。适用于线上线下会议记录转写、影视字幕制作、媒体新闻工作、会议翻译等多个应用情境。作为数字化劳动力,解决刚需问题,有效提高办公效率。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、语气词过滤、自定义热词配置、声纹角色分离、语音内容分析提取等智能化服务功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。


智能语音转写的需求场景

以转写功能为基础,满足细分场景需求,构成丰富产品形态

自从以远场语音技术落地为代表的智能音箱产品规模化应用、深度神经网络下的声学模型研发创新进入平稳发展期后,语音识别赛道的产业竞争已经从标准环境下的算法研发比拼,过渡到了在真实细分需求场景下如何满足用户体验的竞争。智能语音转写产品也遵循这一赛道特征,以语音转文字功能为基础,附加产品服务、多语种翻译、内容分析等智能化服务功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。智能语音转写产品具备丰富的产品形态,可应用于娱乐传媒、在线教育、会议会展、同传等多行业领域,帮助提升企事业单位办公人群、学生、自媒体从业人员、翻译专业人士等各类群体的工作效率。


智能语音转写的价值意义

存量助力人工转写市场,增量释放更多潜在场景需求

传统人力转写市场依赖经验丰富的速录师与人工转写团队,成本相对高昂,而随着智能语音转写产品的规模化落地应用,该类存量市场可借助智能转写产品,实现对人工转写的有效辅助及优化,为下游客户提供更高质效的人机耦合服务;此外,转写应用仍有更大规模的潜在市场需求待挖掘,原受限于渠道、价格等因素,转写产品多应用于有垂类转写需求的小众应用领域,而智能语音转写产品逐步让转写应用实现泛化,市场边界也将逐步扩散,未来智能语音转写产品有望开发更多潜在增量市场,撬动可用智能转写产品满足的长尾需求,进一步优化用户的应用体验。



智能语音转写产业图谱


智能语音转写的发展驱力

智能语音转写可化解人工成本走高与质量要求提升的发展矛盾

近十年来,中国人口增势放缓,劳动人口红利见顶,供应结构性短缺致使企业人力用工成本不断攀升。根据国家统计局数据,2020年中国租赁和商务服务业城镇单位就业人员平均工资已达到92924元,相比十年前涨幅已达到1.35倍。人工转写成本的大幅上涨为转写行业带来更多价格压力。此外,随着转写场景的泛化升级,转写需求渗透到各行各业,转写内容专业度也不断提升,具备行业背景知识的转写译员更成为市场供给侧的稀缺人力资源,且转写交付水平存在不稳定性,与个人服务能力高度挂钩。在此发展背景下,转写市场亟需智能语音转写产品,以辅助优化人工转写产品的角度切入,提供低成本、高质量、具备稳定交付水平的转写服务,满足更多市场需求缺口。


企业协同在线办公常态化,助力转写功能实现更多用户触达

2020年初,受疫情影响,很多企业无法按时复工复产,远程办公成为维持社会经济正常运行的重要平台应用,用户需求显著提升,视频会议、电话会议、在线文档编辑等远程协作功能得到更广泛应用。根据中国互联网络发展统计报告数据,2022年月中国在线办公用户规模已跃升至4.7亿,相比2020年6月增长幅度高达131.4%。如今疫情仍在延宕反复,随着用户在线协同办公习惯的逐渐养成,远程协同办公或将成为常态化运营工具,持续推动企业数字化转型。而相较于硬件录音与录音应用的产品形式,会议应用无需用户购买录音设备或额外开启录音应用即可触达转写服务,提供了更直接的应用切入点,助力转写功能在办公场景实现更广泛的用户触达。



网络视频兴起,为转写产品开拓更多应用空间

随着数字技术与互联网技术的普及,网络视频快速发展,短视频因满足用户高涨的碎片化娱乐需求而迎来一拨爆发式增长,进一步提升用户对整体网络视频领域的关注度与渗透率。如今网络视频已然成为人们生活娱乐、了解信息的重要组成形式。根据中国互联网络发展统计报告数据,2022年6月,中国网络视频用户规模已经达到9.9亿人,占全部网民的94.6%。作为网络视频的供给方,自媒体工作者、长视频内容编辑方均对视频内容的字幕转写具备强需求,一方面字幕可帮助用户更好观看视频内容,并在静音模式也不影响观看;另一方面字幕转写还可提供翻译功能,助力网络视频在国际环境下的推动传播;此外,对于平台监管方来说,语音转写可服务于平台内容监控需求,及时进行内容管理,避免网络直播及视频带来的合规风险。综合来看,网络视频的长足发展为转写产品开拓了更多市场应用空间。



会展双线融合举办不断提升,SaaS转写产品需求走高

在2020年以前,会展行业多在线下举行。面对国际语言的交流环境,会展行业的字幕转写产品大多采用线下人机耦合的服务模式,即专业的语音转写服务团队与硬件机器设备相结合,为会展交流提供字幕上屏、多语种同传等的现场会议服务。而在疫情多点散发的情况下,会展活动的举办面临很多不确定性因素。根据中国会展主办机构数字化调研报告显示,2021年,疫情导致各类会展活动取消、延期、异地举办,会展活动选择线上线下相结合模式举办成为常态。字幕转写产品形态也由原来线下的人机耦合形式逐渐倾向于线上SaaS服务形式,并可配合线上人工智能服务团队或翻译团队提供实时校验服务。此外,SaaS产品形态的需求延伸进一步丰富转写产品的客群覆盖度,除会展举办方外,更多C端用户也可通过SaaS转写及翻译产品满足个人国际参会、实时翻译的会展需求。



转写产品助力解决出海生态下的复合型翻译人才需求

近年来虽然新冠疫情反复、地缘冲突加剧,全球经济发展变数频发,但中国企业出海浪潮已逐渐越过探索期,在视频、游戏、电商、企业级SaaS服务等各领域催生出“出海繁荣”。2021年,中国对外直接投资净额1788.2亿美元,比上年增长16.3%,连续十年位列全球前三,且超越出现统计数据以来首次负增长的2017年绝对值。目前,由于海外市场仍处于高速增长阶段且出海市场各赛道集中度不高,我国出海行业仍具有极大潜力,在企业业务运营、跨国交流等领域对复合型翻译人才需求较大。根据中国翻译协会调研,高级翻译人才稀缺、非通用语种人才匮乏、高校教育与实际工作需求脱节、无法满足多个专业领域翻译需求是翻译行业面临的发展难点。在此背景下,智能语音转写产品的翻译及同传功能,不仅能有效提高翻译工作者的工作效率,同时人机耦合的形式也使各领域的非翻译专业人才具备完成业务需要翻译工作的可能性。



智能语音转写的行业规模

需求活力持续注入,预计2026年市场规模达38亿

目前,智能转写产品率先在办公会议、传媒音视频、会展交流等领域展开应用,用户接受度日益成熟。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬。此外,转写产品可结合NLP、知识图谱技术在单纯转写内容的基础上升级为分析策略的输出层级,释放更多价值势能,预计2026年中国智能语音转写行业市场规模将达到38亿元,2021-2026 五年CAGR=30.7%。


智能语音转写的参与者类型

以语音技术、产品生态、细分领域为多样立足点

根据参与厂商的市场立足点划分,智能语音转写赛道的玩家可分为语音技术厂商、云服务厂商与专业转写及翻译服务商。其中语音技术厂商在语音识别能力、转写服务水平上具备先发优势,且投入足够精力进行技术研发与产品打磨,产品化能力优秀,现占据智能语音转写市场的主流厂商地位;而云服务厂商的转写能力对内服务于内部产品的转写功能需求,对外多选择开放语音转写能力达成外部合作以丰富平台生态,垂直于转写的产品化能力较弱;专业转写及翻译厂商通常以细分领域切入,深耕于办公、翻译、传媒等某个细分领域,在垂类市场提供精细化、客制化产品及解决方案,满足细分客户的转写服务需要。


智能语音转写的产品形态

包括SaaS类产品及本地化部署解决方案,均可结合智能硬件

智能语音转写服务的产品形态主要包括SaaS类产品与本地化部署解决方案两大类。以SaaS类产品为主,其核心是提供云端语音识别及转写服务,根据客户分类与应用情景差异,包括轻量级的网页版/APP/PC/小程序产品和提供给B/G端客户的API开发接口。SaaS类产品的主要特点是价格相对便宜、便捷度较高;而本地化部署的解决方案主要是为了满足客户的安全隐私与定制化需求,例如接入到政企内部办公平台等,需要服务商具备定制化开发能力。此外,为了提升语音采集的质量及多样化的移动应用场景,头部厂商如讯飞听见、搜狗听写等开发了种类丰富的功能性智能转写硬件,如录音笔、麦克风、智慧屏等,可提供云端或本地转写、录音、存储、编辑一体服务。


智能语音转写的收费模式与用户画像

知识密集行业用户的办公效率提升利器,下游客户类型丰富

1)SaaS产品的前期投入主要集中于产品研发以及固定的IT支出,得益于其能够同时为多租户提供服务的特性,使得SaaS的边际成本极低。这既给SaaS厂商带来了相当可观的边际利润,也让厂商在面对同类竞争时得以在价格上做出更多让步。对于C端客户的语音转写服务需求,产品提供方在早期一般采取低价或免费试用时长的模式集聚用户,占领用户心智,迅速做大用户量。后期营收增长依赖满足准确率与实时率下的刚需客户续费率、深耕多样化场景以拓宽潜在客户市场、软硬一体的智能硬件产品拉高营收等;而企业客户的价格敏感度则相对较低,更关注转写精准度和实时性体验等。对于远程会议、视频剪辑、CRM等下游应用,则多将语音转写作为附加功能提供增值服务,用户可付费解锁。

2)本地部署解决方案可满足政企客户的定制化与安全隐私需求。但部署成本高,项目制报价形式涵盖软件服务、实施与运维、硬件设备等费用。客户在关注转写效果的同时,亦关注安全性、驻场训练语料、设备安装等实施及售后服务能力。


智能语音转写SaaS产品分析

高便捷性、开箱即用、按需使用、快速响应及多场景优化

1)基于SaaS的语音转写服务产品通过将音频文件上传至云端,由云端转写引擎进行识别、转写、纠错,完成实时或非实时的语音转写输出。终端用户可以在网页或者APP上获取结果,还可对结果进行编辑、分享、导出等操作。语音转写服务厂商通过多领域的语音转写模型优化和行业词库,迭代更新以提升不同应用场景下的转写准确率,服务多类型客户。随着云计算技术发展,目前云端算力和网络环境比较稳定,SaaS转写产品的转写准确率和效率与私有化部署解决方案的用户感知度差距不是特别显著。高便捷性、较低成本等优势使语音转写SaaS产品拥有庞大的终端消费群体。

2)且SaaS形式的转写产品具有开箱即用无需维护、按需使用等特点,可被集成到下游应用软件或手机、智慧屏、录音笔、智能会议系统等各类硬件设备中。API转写引擎可支持远程会议、线上会展、电商直播、短视频、在线课堂等软件应用的纪要转写、字幕制作、同传翻译等功能,拓宽应用的产品服务边界。广泛的下游生态也有助于语音转写产品加速起量,扩大潜在市场空间。


智能语音转写SaaS产品发展环境

云计算普及助力下游企业便捷应用语音转写服务

智能语音转写SaaS产品的普及推广离不开我国云计算基础设施的建设和技术成熟以及企业数字化转型趋势。我国云服务市场规模不断增长,2021年中国整体云服务市场规模为3280亿元,同比2020年增加45.4%,根据艾瑞咨询推算,未来几年的增速仍维持在30%以上。企业对云计算的接受程度也在不断提高。中国信通院数据显示,2019年中国企业应用云计算的比例达到66.1%,较2017年增长11.4pct,企业在经历信息化阶段后开始向数字化转型。而在企业数字化转型过程中,可有效提高会议交流、字幕转写编辑、同声传译等场景办公效率的语音转写SaaS产品,具备交付灵活、使用便捷等优势,且可降低企业现金流压力,对泛互联网等各类企业的数字化转型和办公效率提升具有重要意义。



智能语音转写SaaS产品竞争要素

转写准确度和效率、产品丰富度是核心要素

综合赛道特征,艾瑞咨询评估智能语音转写SaaS产品竞争要素包含:转写准确度与效率、产品丰富度、品牌影响力、价格优势、用户体量与生态、发展潜力六个方面。从客户选择产品的角度看,虽然不同客户类型和应用场景的需求会面临一定差异,但转写准确度和效率、产品丰富度是解决用户问题的第一前提;在此基础上,有价格优势、品牌影响力大的玩家更容易受到客户青睐。此外,用户体量与生态实力强、发展潜力大的产品市场竞争优势更明显。


智能语音转写SaaS产品竞争格局

市场头部聚集效应显著,参与者致力差异化深耕

现阶段,我国智能语音转写产品市场较为集中,讯飞听见和搜狗听写的头部效应明显;但在产品同质化压力下,参与厂商也均积极在转写的各细分专业领域、云端及本地化服务形式、附加产品形态与产品生态多角度进行差异化深耕。根据六大竞争要素,艾瑞咨询将市场上提供智能语音转写SaaS服务的厂商分为三个梯队,其中语音技术厂商讯飞听见和搜狗听写位列第一梯队。讯飞听见在转写准确度尤其是针对小语种和方言等、产品丰富度、品牌影响力、发展潜力维度拔得头筹。


智能语音转写本地部署解决方案

产品服务升级,高安全性与定制化满足大型政企客户需求

为满足大型企业及政府客户对安全性和定制化的需求,智能语音转写SaaS厂商升级产品和服务,提供私有化部署形式和软硬一体的产品解决方案。

1)本地部署的纯软件解决方案与SaaS产品的功能类似,但私有化部署的独立服务器形式可保证客户对数据保密的安全性需求且架构自主;同时,语音转写能力提供商可针对客户提供的特定语料进行模型训练,满足客户的定制化转写需求,贴合用户业务场景,计算和执行效率更高。

2)为了满足政企大客户的会议室、展会、传媒编辑等线下场景的智慧办公需求,软硬一体的语音转写解决方案可打包提供定制化拾音功能硬件、多语种语音转写与翻译能力、软硬一体化开发接口等;对于随身携带且有隐私要求的离线转写场景,一体机形式的语音转写设备则将硬件拾音、软件与服务集成在一起,无需联网,即开即用。


智能语音转写产业的飞轮模型

API经济与垂类解决方案共拓产业广度与深度

平台类厂商开放平台API经济可拓展智能语音转写产业的广度,形成平台效应,利用下游开发者的创新活性带动市场发展,随开发者生态聚集带来庞大的下游规模经济效益;同时,垂类解决方案则延伸产业深度,聚焦刚需应用与高价值环节,延伸出了录音笔等智能硬件、协同办公会议应用、提取长时语音信息有效内容等多条增量建设与运营需求业务线。API经济与垂类解决方案两者合力,相辅相成,形成智能语音转写产业既快且稳的增长飞轮。在此基础上,高生态活性加硬解决方案实力的企业更能突出重围,抢占市场。



技术趋势

应用价值提升仍受技术掣肘,转写场景有望进一步泛化

当下语音识别技术的精度和速度仍取决于实际应用环境,在常见语种、标准口音、安静环境下的语音识别情况已达到了可规模化应用状态。但现实应用场景随机性极高,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音技术尚未能很好地处理这些问题。如今,语音转写应用多限制在办公会议、视频直播等部分较为理想环境下的固定场景,下一代语音识别技术的突破创新有望实现转写场景泛化升级,进一步抬升语音技术的应用价值与潜力空间。


场景价值

基于产品生态圈,多维度延伸转写技术的内容价值链

从产品生态圈来看,智能语音转写既可以作为单独功能产品出现,也可将转写模块嵌入到各个产品及应用领域中,将语音内容沉淀为文字资产,与更多应用形成内容联动,进一步拓展转写服务的技术优势与场景价值,打造连接转写应用生态的良性循环;此外,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,而从内容价值链来看,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,在沉淀文字内容基础上,自主生成优化策略,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务。目前可代表的典型场景为客服内容质检,但未来转写内容的分析挖掘在销售对话、办公内容洞察、视频内容分析、主播话术策略等领域有更加广阔的商业化前景。


厂商策略

构建自身产品生态,加强外部场景合作

顺应智能语音转写市场的需求释放,各家参与厂商将持续开展差异化竞争策略,在转写市场找到适合自身情况的角色定位,共同推进转写技术的应用渗透与市场发展。早期,智能语音厂商选择率先构建硬件生态,以硬件产品“创造”更多转写应用场景,快速获得C端流量入口与品牌认知,随后不断加强软件服务及生态能力。未来,智能语音厂商将在保证自身技术创新力与先进性的基础上,集中发力内部软硬件生态的合力构建;云服务厂商将持续保持对内嵌入转写功能、对外开放转写能力的双边策略,发挥自身平台优势,更多以提供底层能力服务的赋能者活跃市场;专业转写及翻译厂商将继续聚焦垂类场景,以转写及翻译能力为核心产品,以客户需求为导向,丰富软件产品的功能模块,加强构建更完善、更具业务理解的软件生态。


免责声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场。若有侵权或异议请联系我们处理。