安防峰会
雷锋网AI研习社 AI投研邦 活动 专题 爱搞机
业界人工智能 学术 开发者 智能驾驶 新智驾TV AI+金融科技未来医疗网络安全智慧城市 智慧安防 智慧教育 智慧交通 智慧社区 智慧零售 智慧政务 机器人行业云智能硬件物联网GAIR
业界专题正文
1
为盲胞读书:如何把千万人的语音汇聚成一本书?
本文作者:刘芳平 2014-11-06 20:38
导语:“The Voice Donor:为盲胞读书“是由微信市场发起的一个创意公益项目,通过众包模式让众多用户参与进来贡献自己的语音,最后汇聚成一本本的语音读物捐献给盲人同胞。
为盲胞读书:如何把千万人的语音汇聚成一本书?
“The Voice Donor:为盲胞读书“是由微信市场发起的一个创意公益项目,通过众包模式让众多用户参与进来贡献自己的语音,最后汇聚成一本本的语音读物捐献给盲人同胞。这种新颖的公益方式需要强大的技术来完成,笔者采访了项目的技术支持负责人刘学梁,带你了解为盲胞读书背后的技术故事。
这个项目一开始由微信市场发起。早期,声音捐献数量不大,因而后台能够支撑,而随着越来越多的声音捐献者参与进来,原本的后台及人工审核的机制已经不能够支撑这个参与量级,因而找到北京的技术团队提供支持。“因为他们技术上遇到一些困难,而我们这边正好有语音技术,又是一个公益项目,所以我们都很热心的帮忙,”刘说。从图书切割、下发到语音收集和筛选,最终组装成一本语音读物,都由刘学梁领导的北京团队来完成。
如何筛选和切割一本书?
技术团队的工作之一是把电子书切割成80-120字的片段,存进数据库,并在用户请求时下发给他们。但在此之前还需要经过一个严格的图书筛选过程,选出适合做成有声读物的书籍,取得图书版权后才能进入制作流程。“我们对一本书的质量控制很严格,首先要选取一本合适的读物,还要专门的同事来检验这本书的质量,之间会有很多反馈,质量通关后才会往上放,整个过程比较漫长。”
为盲胞读书:如何把千万人的语音汇聚成一本书?
图书切割也是一个需要技术和技巧的过程。刘学梁说:“我们之前采用全自动化切割,根据标点符号和段落来划分,尽量让每一段长度合理并把说语义关联的字句放在一起,这些都是通过算法来完成的。但采用这种方法遇到一个问题:从出版社得到的书是PDF格式的,PDF转TXT会导致排版上乱掉以及一些页面的缺失,于是我们后来又在自动切割的基础上加了一轮人工切割,对出版社、目录、注释等信息进行处理。切割的长度在80-120个字之间,切完片段会存到数据库,有用户请求时从数据库下发。如果下发了用户没读就会发给另一个人读。”
如何进行语音筛选?
语音筛选是团队遇到的最大技术难题,这里面需要用到语音技术,把好的语音和不好的语音区分开来,比如说有人念的不好或是不完整,噪音太多需要过滤等等。语音筛选是一个与文本对比的过程。
“通常一个语音过来,先经过特征提取,再经过解码器,取一个最好的结果出来,这是一个类似语音识别过程。但是筛选是先有了语音和对应的文本,再要计算语音和文本之间匹配关系,这需要先用文本构建出一个搜索网络,然后在搜索网络里面计算出一个得分,再根据这个得分判断这段语音好还是不好,有没漏读或错读。如果读的比较平滑准确就是一段好语音,它会被筛选出来作为语音读物的材料。这与普通话等级考试有些类似,同样都要匹配文本,看你读的是否准确平滑。”
为盲胞读书:如何把千万人的语音汇聚成一本书?
语音筛选有一个打分的过程,通过这个过程对语音的质量进行评估,实际结果显示,女性的语音质量通常要比男性高,“她们更加自信,读得也更加认真”。而项目的大部分(估计有90%左右)参与者都是女性,结果是一本书大部分都是女性的声音。
总体上后台好的语音还是占大多数,差的语音也存在。哪些因素会导致语音质量不高?主要有三点:
手机质量不好,采集的语音质量就会较差,这部分会放弃掉;
之前有一个bug导致录入语音时文本被遮挡,这样读出来的语音不完整;
很重的口音,或者有些人离话筒比较远,也会导致语音质量不高。
刘学梁说他们非常珍惜每一段语音,尽量不浪费。一个片段只会投放给一个人,只有当这个人没有读或是读的质量真的有问题,比如有缺损,才会筛除并让发给下一个读。
众包制作的有声书,质量能比得上专业的吗?
为盲胞读书:如何把千万人的语音汇聚成一本书?
简单的回答是:不能,但已经接近了。但是,众包读书还有自己的优势和公益的性质。众包的有声书由成百上千人的语音构成,而且这些人都不是专业朗读者,如何提高质量呢?
“如果是专业朗读者去读这些书的话,质量自然会更高一些,但是为盲胞读书采用众包模式的优势是速度会快很多,一个人一天读不了一本书,但几万人一起读的话一天就能读好几本,长期下来就能积累很多书。对于每个人声音不同这方面,习惯了之后其实还好,把不同人的声音连接时我们也会做一些处理,使它们音量一样,让前后两个人的声音区分度不会太大,同时把语音的前后空白处剪切掉,听起来会更流畅。另外我们在进行文章切分时会尽量让一段话保持完整,由一个人来读,这样语音之间断层也是段落之间的区分。而且很多人会连续读好几段,我们也会优先考虑把同一个人读的段落放在一起。”
实际上,为盲胞读书的用户质量非常高。比如有一些片段包含德文、法文等小语种,多数人都不懂,会读得很差,但也有很多用户能把它流畅读出来。笔者在公众号后台亲身体验后发现,很多语音都读得非常专业。
结语
一本书总会有一些段落直到最后还是没有读完,这个时候团队成员会自己上马把它们读完,尽快集结成一本有声书。
不同的书读的速度也不一样,快的一两天就能读完(团队会同时下发好几本书),一般是名人领读较受欢迎。
似乎过程很麻烦,质量也未必比得上专业朗读者制作的,但这种方法制作出来的有声书已经不仅仅是一个商品,它包含了成千上万人的爱心在里面。为盲胞读书(公众号:voicedonate)已经拥有超过50万参与者,截止目前已制作出超过100本有声书,有越来越多的盲人同胞从中受益,希望你也能参与进来。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
1人收藏 分享:
相关文章
为盲胞读书腾讯微信公益
为盲胞读书:你的爱心可以是你的声音
前腾讯 AI Lab 主任张潼加入港科大,牵手创新工场成 ...
腾讯驳“多闪App弹窗”事件:抖音超范围使用用户数据 ...
腾讯辟谣“多闪APP弹窗”事件:超范围使用用户数据, ...
文章点评:
我有话要说……
表情 同步到新浪微博 提交
刘芳平
编辑
微信:liu_fangping
发私信
当月热门文章
拼多多宣布成立技术顾问委员会,陆奇领导
最新文章
谁是杀手?写在Gear VR消费者版之前的技术解析贴
2015年,看品胜的O2O大旗如何在行业挥舞
我们能从付费率70%的动漫公司身上学到什么?
全球无人机最大融资将在深圳艾特航空产生
除了换壳还有什么特殊?Apple Watch全解析
58阻击赶集IPO,谁是老姚的Mr.Key?
热门搜索
索尼金融安防支付广告Pinterestpaypal电信小米手环WhatsappFirefox
热门关键字
热门标签人工智能 机器人机器学习深度学习金融科技未来医疗智能驾驶自动驾驶计算机视觉激光雷达图像识别智能音箱区块链智能投顾医学影像物联网IoTCV微信小程序平台微信小程序在哪CES 2017CES2016年最值得购买的智能硬件2016 互联网小程序微信朋友圈抢票软件智能手机智能家居智能手环智能机器人智能电视360智能硬件智能摄像机智能硬件产品智能硬件发展智能硬件创业黑客白帽子大数据云计算新能源汽车无人驾驶无人机大疆小米无人机特斯拉VR游戏VR电影VR视频VR眼镜VR购物AR直播扫地机器人医疗机器人工业机器人类人机器人聊天机器人微信机器人微信小程序移动支付支付宝P2P区块链比特币风控高盛人脸识别指纹识别黑科技谷歌地图谷歌IBM微软乐视百度三星s8腾讯三星Note8 小米MIX小米Note华为小米阿里巴巴苹果MacBook ProiPhoneFacebookGAIRIROS双创周云栖大会先打智能硬件公司智能硬件QQ红包支付宝红包敬业福obdgms认证dbm asu歼星舰百度识图路由器天线msm8974moga rebel用户体验设计4g+ 手机caffe2巴慕达chatonddos攻击的流量成本openwrt overlay更多
联系我们关于我们加入我们意见反馈投稿申请专栏作者
Copyright © 2011-2019 www.leiphone.com 雷锋网-读懂智能&未来 All Rights Reserved 粤ICP备11095991号-1 ICP证粤B2-20150332 0daybank
文章评论