「我也做语音但不局限于语音」百度究竟是AI输入

  见过孔子、武则天、门神在输入窗口冲你露出「蒙娜丽莎般的动态微笑」吗?不想再用语音迷惑你的百度输入法,要背这口锅。

  即便作为一个完全不会五笔,必用拼音输入法的普通用户,我对输入法的要求其实也没有多么苛刻:没有那么多弹窗广告、词库丰富程度还不错,界面符合审美偏好,用着顺手流畅,就 OK 了。

  因此,百度输入法还能从哪个角度「做出花儿」来?或者说,百度输入法还能跟其他具备先发优势的输入法相比,有什么自己的优势?这是我们参加百度输入法新品发布会的最大疑问。

  在发布会上,如果把百度 AI 技术平台体系总负责人王海峰的演讲汇成一句话,就是「如果你觉得百度其他 AI 应用太高大上了,就先来试试输入法吧」。

  在无人车、智能音箱等产品可能需要一定门槛(智能音箱你得花钱买)才能抵达用户的基础上,百度 AI 技术平台体系这个部门,正在利用 AI 技术,通过对包括「手机百度 app」「输入法」「百度地图」等百度系消费级软件的「小修小补」,来不断加强用户对 AI+产品的好感度,最终起到加深大众对百度 AI 技术能力的印象,以及教育市场的作用。

  而输入法,就是这样一个绝佳的入口。选择输入法进行 AI 赋能,其实不仅仅是这次发布会想要表达的核心主旨,也是其他竞品的「心里话」:

  一款顺手可心的输入法不仅可以提升你的沟通效率,也能赋予你更好地表达自己的能力。而如何做到顺手可心,就需要实现语音识别等 AI 技术的升级,同时也尝试开发 AI 功能的其他潜力。

  但是,作为一个在输入法市场中实力强劲的「追随者」,他们在技术改良上的速度并不弱于其他竞品,在短时间内陆续推出了语音修改、语音翻译、语音轻声识别、语音联想表情等 AI 功能。

  早在 2012 年,百度就率先上线了基于 DNN 的语音识别模型,此后随着技术的不断迭代,每一年在语音识别技术上都有所进展。

「我也做语音但不局限于语音」百度究竟是AI输入

  在发布会上,百度语音技术部总监高亮发布了百度语音技术的最新突破——深度尖峰技术 Deep Peak 2 模型。

  这个模型的全称叫做「基于 LSTM 和 CTC 的上下文无关音素组合建模」。而它的作用就是:把高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体作为一个基本建模单元。

「我也做语音但不局限于语音」百度究竟是AI输入

  Deep Peak 2 模型采用的上下文无关建模方式看似简单,但要解决其背后的问题却并非易事。

  国际上也曾有过类似的建模方式,但却无法避免建模时出现的「过拟合问题」(意思是神经网络模型对训练数据拟合程度过当,反而导致在测试集上的效果较差),百度通过声学模型学习和语言信息学习相分离的特殊训练方法,使用音素组合来保留最重要的音素连接特性,最终解决了建模时的过拟合问题。

  此外,百度利用这种最新的上下文无关建模方式,使得建模单元从原先的上万量级降到了一千以内,大幅提升了语音解码速度,成为百度输入法语音输入能做到实时同步的关键所在。

  高亮告诉我们,Deep Peak 2 能够充分发挥神经网络模型的参数优势,让语音识别过程稳定性更强,准确度更高,同时还能带来更快的解码速度。

  高亮表示,目前百度输入法的语音输入相对正确率已领先行业 20%,该技术继在百度输入法中得到应用后,后续也会出现在百度所有语音相关产品中。

  为了验证自己的产品不再是高管口头上的「高人一等」或「让你的生活更美好」,百度这次请来了「中国好舌头」华少当场即兴挑战百度的语音识别技术。

  在现场,华少用他那不打弯的舌头,以最快的速度在 58 秒内念出了 426 个字。最终,在实时输出的前提下,百度 AI 也全部正确识别出了这段线 个字,一字未差。

「我也做语音但不局限于语音」百度究竟是AI输入

  譬如,让发布会突然热闹起来的一个「小插曲」,就是百度输入法新增的这两个功能——「语音速记」与「AR 表情」。

  其中,「语音速记」这个功能在输入法领域,首先独家采用了「声纹识别」技术。该技术主要针对 2-3 人小型会议场景,可根据声纹自动区别发言人,实现智能化的语音识别。

「我也做语音但不局限于语音」百度究竟是AI输入

  百度认为,这项功能会造福许多媒体行业的从业者,帮助记者免去整理采访录音这一耗时较长的重复性工作。不过,到底效果如何,还要我们用了才能给出答案。

  在演示的一段视频中,用户不仅可根据相机或相册进行人脸识别、制作表情包,还能够通过自己的表情控制虚拟人物形象。而制作出来的 AR 表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。

  发布这个功能的理由,百度输入法负责人解释,其实更多是从百度输入法的用户属性出发,让产品拥抱年轻文化。

  这个解释的依据,是官方给出的一组用户数据:根据年龄划分的百度输入法用户比例中,90 后占 70%,表情输入使用率高达 60%。

「我也做语音但不局限于语音」百度究竟是AI输入

  一千个人眼中有一千个哈姆雷特。颜文字、表情与皮肤,界面的友好度,词库词汇量的丰富度,翻译功能,语音转文字功能等等,都可能成为一个用户对于一款输入法在 PC 端与手机端满意度的衡量标准。

  由于不同输入法厂商在上述各方面的投入与实力不尽相同,因此,如何评价一款输入法的好坏成为一个「萝卜青菜各有所爱」的开放性问题。

  发布会上,百度输入法对外宣布,截至目前百度输入法月活用户已达 4 亿,语音输入日流量超过 2.5 亿。

  而又据竞品发布的数据统计:截至 2017 年 9 月,搜狗输入法拥有 3.07 亿移动日活跃用户,8700 万 PC 日活跃用户;截至 2017 年 11 月,讯飞输入法用户规模超 5 亿,活跃用户超 1.2 亿,语音用户覆盖率达 40%。

  尽管输入法本身可能并不盈利或者营收甚微,不过作为积累数据用户的重要方式,输入法的重要性毋庸置疑。各输入法厂商也都在致力于推陈出新,开拓输入法的功能和潜力。

  6 年前,在 PC 端占据主导地位的搜狗输入法就开始探索语音识别在输入法上的能力,进而推出语音输入功能;

  而科大讯飞更早,8 年前就着手攻关语音技术,随后不仅将其应用于输入法中,还推出了支持音频一键转文字的语音转写平台讯飞听见。(冷启动、微创新、产品思维,一家AI公司孵化输入法的跋涉之旅)

  同样是在 8 年前,百度也开始布局人工智能,之后陆续把 AI 技术应用到了输入法产品中去,「语音速记」功能也是在这基础上实现的。

  除了给予「语音识别」这个 AI 单点能力,百度的「AR 表情」还基于用户的动作、表情捕捉信息,为文字输入形式的人机交互提供了更多可能性。

  在这里需要插一句:如果你经常分不清东南西北,可以用一下百度地图中查找步行路线时给出的「AR 实景导航」功能,试用过一次,效果还不错。

  按照百度的说法,既然「全感官输入」时代的脚步已经临近,那么当更多 AI 技术融入输入法后,也许有一天,输入法可以了解用户各种不同的表达形态,真正跳脱出语言的局限。888真人

相关推荐
新闻聚焦
猜你喜欢
热门推荐
  • 声纹识别同步转换 百度输入法v80版推出语

      一直以来,语音素材和书面材料的转化都有着一道深深的鸿沟。每一次会议不仅要做纪要,还需录音留档双重保险,把采访录......

    01-24    来源:未知

  • 「我也做语音但不局限于语音」百度究竟

      见过孔子、武则天、门神在输入窗口冲你露出「蒙娜丽莎般的动态微笑」吗?不想再用语音迷惑你的百度输入法,要背这口锅......

    01-24    来源:未知

  • 多家航企解禁空中玩手机 数据通信与语音

      发布消息称,从19日起,搭乘南航实际承运航班的旅客,可在飞行过程中使用手机、平板电脑、笔记本电脑、电子阅读器等便......

    01-24    来源:未知

  • 安徽智能语音日均使用达四十亿次

      记者1月10日从在北京举行的部省共同推进安徽智能语音产业发展领导小组会议获悉,截至目前,我省语音云平台服务第三方创......

    01-24    来源:未知

  • 安徽智能语音日均使用达四十亿次 累计终

      据安徽日报报道 记者1月10日从在北京举行的部省共同推进安徽智能语音产业发展领导小组会议获悉,截至目前,安徽省语音......

    01-24    来源:未知

  • 导航、医疗、公检法智能语音让生活更简

      多部门合力打造国家级专家库,百度、阿里云、腾讯、科大讯飞等分别启动建设自动驾驶、城市大脑、医疗影像、智能语音4......

    01-24    来源:未知

  • 当贪玩蓝月遇到语音输入法

      大扎好,我系长小春,我系古天乐,我四渣渣辉....相信用电脑上网的朋友都会听过这段广告语,虽然小编也是传奇类游戏的......

    01-23    来源:未知

  • 语音电话通知领取传票?这是诈骗电话

      据悉,凉山州中级人民法院民一庭的电线,犯罪嫌疑人伪造该号码,冒充法院工作人员,通知市民按其要求到法院领取传票、......

    01-23    来源:未知

  • 有信:如何做好VoIP语音质量评测?

      VoIP(Voiceover IP)即IP电话,是将话音编码、压缩转换成数据包,在IP网络中进行传输的技术。语音通信因其特有的可靠性和高Q......

    01-23    来源:未知

  • 陕西高考生可通过语音电话举报违规录取

      据悉,该系统自今年录取工作开始后投入使用,系统最大容量可于同一时刻接听30路呼入电话。截至目前,已经累计呼入电线......

    01-23    来源:未知

  • 返回列表
     
    Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。