Mozilla

ladbrokes立博社区

登录    注册

QQ互联

m88 188bet uedbet 威廉希尔 明升 bwin 明升88 bodog bwin 明升m88.com 18luck 188bet unibet unibet Ladbrokes Ladbrokes casino m88明升 明升 明升 m88.com 188bet m88 明陞 uedbet赫塔菲官网 365bet官网 m88 help

Mozilla 开源语音搜集方案 Common Voice 扩展支撑汉语普通话

yingliu Mozilla职工 宣布于 2019-5-10 11:01:23 | 只看该作者 |只看大图 回帖奖赏 |倒序阅览 |阅览形式 [仿制链接] 打印 上一主题 下一主题
0 5426
跳转到指定楼层
本帖最终由 yingliu 于 2019-5-10 15:47 修改

开发开源 Firefox 阅览器的非营利安排 Mozilla 宣告,其所推进地最大语音数据搜集方案——Common Voice 渠道已正式支撑汉语普通话。在广阔的 Mozilla 社群及言语专家同伴的辛勤努力下,从现在开端,网友可到 Common Voice 的简体中文网站(https://voice.mozilla.org/zh-CN录制音频。

●     Mozilla 开端搜集大陆地区汉语语音数据,更进一步充分其揭露语音数据集
●     现已搜集 27 种不同言语的语音文件,并将再扩展支撑 72 种言语
●     Common Voice 是史上最大的开源语音转录文字数据集,其最新发布的数据库包含来自逾越 4.2 万奉献者的 18 种言语录制的语音文件,总长近 1,400 小时

语音接口是互联网未来的大势所趋。车载语音助理、智能手表、智能灯泡等等……内建语音辨认技能的设备可谓日积月累。但是,相关技能的立异仍面临着严重阻止:有意打造语音辅佐方案的立异公司、研究人员或各种开发者都需获得很多转录为文字的语音数据,才干练习机器学习的算法。但现有揭露语音数据集的语音数据量与支撑语种数都极端有限,而私有的语音数据不光仅把握在少量几家公司手中,其费用还很高。

因而,Mozilla 自 2017 年 6 月起打开 Common Voice 方案,期望树立全球化的开源语音数据库,以应对语音接口的展开需求并打破现阶段的商场限制。Mozilla 以为,此类接口不应只操纵在少量几家握有语音服务技能的厂商手中,并且,期望能让用户以自己的言语和了解的腔调来吸收和了解信息。

已搜集包含汉语(普通话)在内的 27 种语音数据

Common Voice 在 2018 年 6 月开端搜集多言语语音数据。从那时起,此项目便不断强大,变得更全球化、更具包容性。在曩昔 10 个月间,大批的热血奉献者积极呼应,已在 Common Voice 网站上建议 27 种言语的语音文件搜集方案,别的还有高达 72 种言语的录音方案正在进行中。

最新参加的言语是汉语(普通话)。现在,世界各地的网友都能够到 https://voice.mozilla.org/zh-CN 网站“捐赠声响”,或验证其他人的录音。



语音奉献者能够挑选保留项目记载,以把握自己的录音记载。此外,还能够挑选供给人口特征信息,以帮忙 Mozilla 改进用以练习语音辨认引擎的语音数据。

如 Common Voice 搜集的其他言语数据,Mozilla 关于汉语(普通话)的方针是要累积约 1 万小时的经过验证的音频,由于 1 万小时的音频量才足以练习出齐备的语音辨认系统,这样咱们才干一起推进语音辨认技能的展开。不管在上班途中、公交车上、午休时刻、家里,仍是与亲朋好友齐聚一堂时,都能够经过 voice.mozilla.org 网站或 iOS 运用,只需有手机或计算机,你就能捐出声响或验证其他人的音频。

Mozilla 开源立异方案总监 George Roter 表明:「就算一个人只录或听几秒钟的音频,但假如奉献者多达数十万,加起来的数据量就会十分惊人!当更多人都乐意出一份力时,这套语音数据集的价值就能更快提高。」

发布多言语语音数据集

Mozilla 将不忘初衷,持续充分语音数据集的内在,使其成为人人可用的公共资源。并已于本年二月发布第一批的多言语语音数据集,其中共包含 18 种言语的录音文件,包含:英语、法语、德语和汉语(台湾地区)等广泛通行的言语,以及威尔士语及卡比尔语等较为冷门的言语。Common Voice 至今已搜集逾越 4.2 万人奉献的录音,总长度约 1,400 小时,且语音数据量仍在持续增长中。

在此数据集发布后,Common Voice 的规划已逾越其他同类型的语音数据集,并已将数万人的录音文件及对应文字开放给大众运用(选用 CC0 授权)。任何人都可到 Common Voice 网站下载完好的语音数据集。



George Roter 进一步表明:「Mozilla 致力于促进愈加多元化的立异语音科技生态系的展开。咱们不光期望能自行推出语音技能的产品,也立志倾力支撑研究人员及小型企业的展开,在树立全球最大公共的多言语语音数据集的过程中,咱们很侥幸得到越来越多人的协助,也很感谢志愿者们的热心相挺,让咱们成功展开关于汉语普通话的支撑。」


您需求登录后才干够回帖 登录 | 当即注册

本版积分规矩

快速回复 回来顶部 回来列表