安防峰会
雷锋网AI研习社 AI投研邦 活动 专题 爱搞机
业界人工智能 学术 开发者 智能驾驶 新智驾TV AI+金融科技未来医疗网络安全智慧城市 智慧安防 智慧教育 智慧交通 智慧社区 智慧零售 智慧政务 机器人行业云智能硬件物联网GAIR
特写正文
1
前Google高级管理科学家林德康回国创业,做了一款你没见过的语音助手
本文作者:林藠头 2016-07-18 14:39
导语:“我们自己并不重新发明这种交互过程,实际上我们是把一句话翻译成App里的操作,App可以做什么,我们把语音指令翻译成动作。”
编者按:林德康,前Google高级管理科学家(senior staff research scientist),主攻自然语言处理。在加入Google之前,林德康是加拿大Alberta大学计算机教授,发表过逾90篇论文、被引用超过12000次,他也是国际计算语言学会ACL Fellow——整个华人圈的ACL Fellow不用一只手都数得过来。难怪他回国之后,有人惊异于他“竟然没选择去清华教书,也没接受BAT的邀请”,而是联合发起了一家小小的初创公司:奇点机智。
奇点机智做的还是林德康最擅长的NLP相关的事情,目前主攻一款语音助手“小不点”,林德康说它“跟大部分语音助手的方式不太一样,甚至可以说很不一样”。产品目前在开发完善中,年内会上线。
雷锋网来到了位于中关村某办公大楼的奇点机智办公室,大约有30余位全职员工在从事语音助手的研发工作,其中部分员工来自Google、微软,绝大多数员工毕业于北大、清华、浙大、南大等高校。创始人邬霄云曾在Yahoo、Google北美研究院工作,在大规模机器学习、自然语言处理等领域有10多年项目经验积累。
这款语音助手和Siri、Cortana等等有什么不同?以下是林德康自述,雷锋网整理。
前Google高级管理科学家林德康回国创业,做了一款你没见过的语音助手
Google Now、Siri、Cortana这种都是操作系统的owner做的语音助手 ,他们只着重于操作系统能做的事情,比如设闹钟、发信息等等,外接app的时候,也只能接操作系统刚好能做的事情,比如Siri“用微信给XX发信息”,这个是基于Siri自己首先可以发信息,才可以接入微信。
另一种语音助手,Viv、Soundhound和国内一个叫渡鸦科技的公司类似,他们的想法是手机上只需要他们这一个App,这个App可以做所有事情,打车、订外卖、订机票。比如订机票,语音助手理解语义之后,去访问比如说携程的服务器端口,向携程的后端直接发一个webrequest,填参数,然后返回订票结果——整个过程用户只需要跟手机助手交互,不用去跟订票软件交互。所以这类助手除了做语义分析的工作,还需要重新发明(recreate)用户的交互过程,这些订票的流程需要自己做一遍。
我们自己并不重新发明这种交互过程,实际上我们是把一句话翻译成App里的操作,App可以做什么,我们把语音指令翻译成动作。比如在携程订票,用户说完“我要订从哪里到哪里的机票之后”,界面就会到携程里订机票的界面,并且预填好语音里已经有的信息——语音完成一部分App的操作工作。我们是帮用户更简洁地操作这些App。
说到这里,林德康展示了几个功能,首屏状态下按住Home键说“给孟X发个红包”,经过一层层自动索引,手机直接进入微信孟X的聊天窗口,再弹出红包界面,整个过程,用户只需要输入红包金额点击发送就可以完成;按住Home键说“告诉林XX我迟到了”,微信跳到了和林XX的聊天界面并且对话框已经预先输入了“我迟到了”四个字,用户要做的只需要按“发送”。
有的APP功能隐藏得很深(比如预约用车,因为叫车软件可能并不希望用户预订,所以稍微隐蔽一些),但功能有,这时候你说“我想明天预定一个5:00去首都机场T3的专车”,就比手动操作APP要简便,我们想做的就是这件事情。我们说cover一个app,比如微信,会包括发红包、放大字体、付款等等几乎所有的操作,Siri所说的Cover可能只是接入发信息这个功能。
(雷锋网:每一个App的每一个操作都需要“翻译”,开发工作量会很大吗?)
每一个App可以做的事情其实不是很多,比如携程到底有多少功能,就订票而言,在语音助手理解起来,都是“从一个城市飞到另一个城市”这一件事。微信看似这么多功能,实际上所有的项目加起来也就几十个(当然不包括玩游戏的部分)。
我们做的更多的是自然语言方面的事情,比如发红包,“把红包发给谁”、“给谁谁谁发红包”、“我想发给红包给谁”,“从北京到上海的航班”和“从北京到上海的飞机”说的其实是一回事,不管怎么说,机器都要能分析出来,这一部分是我们的核心竞争力。我们的语料来自网页和其他的语料库,几乎所有的网页都拿来学,我们学习时需要从海量的语料里找出语料之间的相关性,然后应用到助手里。
我们的做法跟大部分语音助手的方式不太一样,甚至可以说很不一样。大部分语义分析都是靠语法,我们也用语法,但我们用的办法不太一样,我们不用语法驱动理解的过程,语法有的话更好,没有也可以,这样我们的系统更robust一些,可以handle更复杂的变量。
编后:NLP是个世界级难题,Google、微软也没有很好的解决方案。如果有好的解决方案,意味着整个迁移学习、机器学习领域都会有一些质的进展。Viv宣称要“吞并整个互联网”,吊足了观众胃口,但产品到目前也没有和用户见面。奇点机智的这款助手“小不点”,会给我们带来一些耳目一新的体验吗?
下个月的12、13号,雷锋网(公众号:雷锋网)将在深圳举办一场盛况空前的人工智能与机器人峰会,林德康也会出席,关于这款助手的更多技术细节我们留到大会上展现。届时我们将发布“人工智能&机器人Top25创新企业榜”榜单,为此我们在搜集并确认AI、机器人、自动驾驶、无人机等几个领域的优质项目。如果您的项目是相关领域的,且足够有技术壁垒、足够有成长性,欢迎联系2020@leiphone.com。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
3人收藏 分享:
相关文章
林德康自然语言处理NLP渡鸦科技奇点机智
林德康:做语音助手,这条路是最好的
前 Google 科学家林德康详解:卷积神经网络如何应用 ...
AIR 029 | 专访前Google科学家林德康,为手机添一只 ...
AIR 023 | 从搜索引擎到行动引擎,前谷歌科学家如何 ...
文章点评:
我有话要说……
表情 同步到新浪微博 提交
林藠头
编辑
你先说有什么事,我好决定在不在。
发私信
当月热门文章
最新文章
BroadLink把人工智能概念带到了智能家居行业,问题是怎么做?
这就是你们期待的“小米单反”,品牌不是小米,相机也不是单反
AI 诊疗为何还停留在实验室?数据是硬伤
为了赶翻译下岗,微软又向前走了一步
黄汪:3次归零,才有了10亿美金的华米
比激光和红外更有价值,揭秘神秘的太赫兹波
热门搜索
Twitter英特尔创业漏洞激光雷达NFC用户体验谷歌眼镜FintechAWS黑产
热门关键字
热门标签人工智能 机器人机器学习深度学习金融科技未来医疗智能驾驶自动驾驶计算机视觉激光雷达图像识别智能音箱区块链智能投顾医学影像物联网IoTCV微信小程序平台微信小程序在哪CES 2017CES2016年最值得购买的智能硬件2016 互联网小程序微信朋友圈抢票软件智能手机智能家居智能手环智能机器人智能电视360智能硬件智能摄像机智能硬件产品智能硬件发展智能硬件创业黑客白帽子大数据云计算新能源汽车无人驾驶无人机大疆小米无人机特斯拉VR游戏VR电影VR视频VR眼镜VR购物AR直播扫地机器人医疗机器人工业机器人类人机器人聊天机器人微信机器人微信小程序移动支付支付宝P2P区块链比特币风控高盛人脸识别指纹识别黑科技谷歌地图谷歌IBM微软乐视百度三星s8腾讯三星Note8 小米MIX小米Note华为小米阿里巴巴苹果MacBook ProiPhoneFacebookGAIRIROS双创周云栖大会先打智能硬件公司智能硬件QQ红包支付宝红包敬业福palantir微信小应用kindle为阅读而生duckduckgodji mavic机器人比赛项目雷锋网ppt硅光子技术物联网网关小牛改装智能防盗inception v4apple watch 心率iphone翻新cncc 2016 周志华更多
联系我们关于我们加入我们意见反馈投稿申请专栏作者
Copyright © 2011-2019 www.leiphone.com 雷锋网-读懂智能&未来 All Rights Reserved 粤ICP备11095991号-1 ICP证粤B2-20150332 0daybank
文章评论