据Gartner预测,2020年全球互联设备的规模将达到250亿台,是2015年的5倍之多。如此海量设备间的互联互动将是一个巨大的实时网络,API可以把所有设备、App连接起来,让用户进行真正实时的音视频、数据和观点的交流互动。
早在2014年,声网便看到了万物互联同实时音视频的巨大机会,并开创了面向全球的实时音视频云服务。而作为实时音视频云服务的开创者和引领者,声网Agora也从未停止过上下求索、思变求进的步伐,在刚刚过去的2019年,声网实现多项产品、服务革新、新技术探索全面落地,并且推进了业务和服务的迅猛增长。
在与开发者、客户携手拓展新场景的同时,声网的技术根基也更加深固。在 2019 年落地了多项技术探索。
声网Agora 的视频超分辨率技术,可以将实时传输中的视频在原有分辨率的基础上实现两个方向的2倍同步放大,并获得显著的细节增强,全面提高原有视频分辨率。声网Agora 超分算法同时支持在云端和移动终端上实时运行,并可以在移动终端上达到非常出色的效果。这是行业内首个可实时运行于移动设备端上的超分算法模型。
在音频方面,也有 AI 应用落地。一方面全新的 AI 降噪技术,可有效地处理喷麦、电流音等常见声音干扰;另一方面,利用AI 丢包隐藏技术有效保证弱网情况下的有效沟通。
可在画质不变的情况下,帮助用户节省更多的码率,能大幅节省使用带宽 ,或在一些场景下可以提升画面的流畅性。
在传统的 PRIM 算法上进行了优化,在软件编码器上开启后,对图像运动相对简单的场景,可节省其 20%的带宽。
Agora SDK 已全面支持 20kHz 高频谱、48kHz 全频带高音质应用,可以全面保证频谱的丰富性、饱和度和高保真度。优化了弱网环境下的音频表现,在70%的丢包情况下,仍能获得流畅的高音质表现。并提供接近专业调音效果的声音美化功能。
Agora SD-RTN 作为承载 RTC 业务的实时传输网,在 2019 年也得到了进一步的优化。目前网内传输,通线%。对东南亚、印度、南美等地区的传输覆盖进行优化,这些地区的优质传输率已经达到 95%以上,进一步提升了泛娱乐、教育等多种场景的互动体验。
通常来讲,国内传输的数据可能会遇到“运营商错分”问题,比如本应在电信网络内传输的数据,会因为个别中小运营商的服务器分配错误,导致跨运营商传输。当出现这种情况时,通话的质量就会受到影响。声网在这一年中,针对这个问题进行了一系列的探索与优化,已将“错分率”降低到 0.1%。
在用户需求和市场环境变化的过程中,声网的服务也不断创新升级。我们已与全球 40 多个合作伙伴开启云市场,共同创建一个 RTC 实时互联网生态,帮助开发者加速集成开发,并针对不同实时互动场景的需求,推出多种场景化方案。
声网面向1V1、小班课、互动大班课、双师课堂、超级小班课、AI互动课堂、音乐教学、游戏化教学等8大在线教学场景,均推出了相应解决方案。在普通语音教学场景下支持8K或16K采样,在音乐教学场景下覆盖全频带的48kHz采样;最高可支持 4K 高清分辨率;融合声网Agora语音引擎与AI音频降噪算法,针对双讲现象进行了特别优化。
声网在今年发布了推出 H5 实时直播解决方案,视频延时可低至 200ms,纯音频可低至 50ms。它基于 Agora Web SDK 实现,既兼容大部分的 Android 机型、浏览器,又可以满足白板+H5 直播对实时性的要求。
随着RTC 技术不断在医疗行业中的渗透,视频急救、医学教学、远程问诊、电子处方等场景逐渐 RTC 化,医生与患者足不出户,即可在线上完成问诊、开药和教学交流。据某客户数据显示,今年有超过10w用户发起在线视频问诊。这一场景就是基于声网远程医疗解决方案实现的。
同时,结合声网RTM SDK、本地录制和云端录务,可满足医疗教学、电子处方等场景对屏幕共享、医学影像操作、病例实时共享等远程协作需求。
自从小天才视频手表基于声网 Agora SDK 实现了视频通话功能后,我们不仅推出了低功耗智能设备场景方案,并先后集成到了AR 眼镜、智能摄像头、智能音箱等产品中。低功耗智能设备场景方案适用于基于 ARM 架构、Android 系统平台的低功耗智能设备。
声网推出了泛金融视频双录场景方案。在满足企业网络安全要求的前提下,可以实现企业内外网音视频和信令信息互通,录制,加密等企业级需求。
声网在原有的实时语音互动直播的基础上,整合业界 Top 3 语音识别服务,推出了业界独有的一站式智能语音识别方案。开发者只需在应用中集成声网 Agora SDK,即可让音频在实时传输的过程中完成语音内容识别与审核。
Agora SDK 融合业界领先的语音识别和机器翻译技术,推出视频双向翻译转写功能,可实现在实时视频会议场景中“中译英”和“英译中”的同传工作,让视频会议也能拥有双语字幕。
实时消息(RTM)SDK 在 5 月正式发布,系统容量提高了数倍并可随时拓展,支持单频道百万级并发在线及亿级消息并发。并提供丰富的功能支持语音聊天室、小班课、大班课等等不同业务场景,帮助国内、出海以及海外客户轻松构建实时场景。
RTSA 实时码流加速 SDK 主要面向那些自己可以完成软硬件编解码或有特殊编码要求的开发团队的,RTSA SDK 可以帮助他们解决复杂的实时网络传输问题,让他们的音视频数据也可以接入 SD-RTN,获得覆盖全球的优质传输体验。
2019 年中旬,声网正式推出云端录务。开发者通过 5 个 RESTful API 即可方便快速的开启和控制云录制功能。
在今年对 Agora SDK 升级后,声网推流服务极大的提高了服务的可扩展性、可靠性和 API 的易用性,并且卡顿率和音视频质量得到了显著的改善。目前,推流成功率与 CDN 的握手成功率均超过 99.99%。
水晶球(Agora Analytics)是声网发布的业界首个实时音视频全通话周期质量监控与分析平台。水晶球每天有 3000 亿数据点,从 App 端到 SD-RTN,从采集到渲染,为用户提供全链路的质量透明信息,让用户真正做到对自己应用中的实时音视频数据质量了若指掌,支持RESTful API。
2019 年 6 月旧金山、10 月北京,两场 RTC 大会如约举行。在北京的第五届 RTC2019 实时互联网大会上,来自 W3C、搜狗、阿里巴巴达摩院、字节跳动、美团、沪江CCTalk、bilibili等团队 40 多位技术总监、资深工程师,围绕 AI、大前端、网络架构、编解码等话题分享了实践经验与前瞻理念。他们还与现场的数千位开发者一起度过了一个充满知识、欢笑的程序员节。
7 月 1 日,声网发起了业界首个围绕 RTC 技术展开的创新开发大赛。大赛共三个赛道,包括编程创新挑战、超分辨率图像质量挑战和超分辨率算法性能挑战,共有 150 余人参加了编程创新挑战, 760 多支队伍参加了超分辨率的两项挑战赛,最后有 9支团队脱颖而出赢得大奖。
2014年,从硅谷一个车库的几行代码开始,到2019年,声网每天为全球开发者提供超过6亿分钟的实时音视频技术服务。
为了满足开发者们希望将实时音视频通话与人脸识别、图像识别、声纹识别或与 Python 库结合的需求,能玩出更多花样。声网发布了Python SDK,并提供了集成 TensorFlow进行图像识别的Demo。
目前,已推出超过 120 个 Demo。在不断维护、更新代码的同时,声网也对大部分的集成文档进行了优化,让它们更加通俗易懂,降低大家的上手门槛。
在今年的 RTC 2019 实时互联网大会上,声网正式开源了自研的语音抗丢包编 SOLO 编,它可以帮助所有正在做实时音视频的开发者,有效减少丢包对语音通话质量的影响。同时,下一代 SOLO 编SOLOX 的技术演进步伐也未停歇。在低码率下,SOLOX 比 Opus 的抗丢包模式 MOS 分高出了 0.7 以上,且码流兼容 Opus,即 SoloX 的码流可以被 Opus 正常解码。
在 Demo 以外,声网还为 WebRTC 开发者建立了国内首个 WebRTC 源码镜像,以及开放于 Github 上的 WebRTC 中文文档。开发者们不用再受限于网络,可以直接下载、编译 WebRTC 源码,还可以阅读或自行优化 WebRTC 中文文档。这两个资源的地址,均已公开在 RTC 开发者社区(中和 Github 中。
为了给开发者更好的开发体验,声网对超过 100 位开发者进行了访谈,并根据建议全面优化了文档,包括重写了 8 个产品 8 个系统平台的 Quickstart、文档搜索功能与搜索结果优化、重构了 31 篇高阶开发指南、优化了所有产品、平台 Token 的文档易用性等。而且,在官方 Github 开源了所有开发文档,让开发者参与优化出更适合他们的文档。
声网Agora成立于2014年,是实时音视频云行业的开创者及领先者,也是全球最大的实时音视频专业服务商。在过去6年的全球化运营中,声网以实时音视频RTC技术为核心驱动了爆发式的业务增长。截至2019年10月,声网的日均通线亿,每年为企业客户、创新创业项目、开发者提供超过5.79亿分钟免费服务时长,全球范围有超过30亿台终端安装使用Agora SDK的应用。
2014年成立至今,声网已经将RTC技术赋能到社交直播、教育、游戏、金融、医疗、企业协作、IoT、VR/AR等10余个行。