主要观点总结
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark构建符合业务场景和分析师习惯的工程解决方案来应对新的业务挑战。文章还提到了选择阿里云的原因,技术方案设计,典型应用场景,迁移后的收益以及后续期待。
关键观点总结
关键观点1: 背景介绍
流利说是领先的科技驱动的教育公司,致力于为用户提供一整套系统性的英语学习解决方案。公司面临弹性资源管理、费用、性能、运维和监控等问题,选择合作阿里云来解决。
关键观点2: 为什么选择阿里云
阿里云提供了高性能的Lakehouse产品EMR Serverless Spark,具有一站式数据平台服务、兼容开源Spark生态、支持多种调度引擎等特点,解决了企业数据处理和模型训练中的各种问题。
关键观点3: 技术方案设计
流利说的数据平台涵盖了从数据采集、接入、存储、计算到管理、查询与可视化的完整能力。该平台使用GitLab进行ETL脚本存储管理,Airflow作为调度系统,EMR Serverless Spark作为核心计算引擎,并结合Fusion引擎加速数据处理。
关键观点4: 迁移后的收益
迁移后,离线任务开启Fusion耗时减少40%,核心报表更早产出;任务稳定性显著提高,失败率降低80%;根据业务需求可自动调整扩充计算资源;减少不必要的大数据组件,降低平台运维成本;真正的按量付费,成本降低30%。
关键观点5: 后续期待
流利说期待与阿里云EMR团队针对湖仓场景输出更多行业先进解决方案。
文章预览
作者:流利说 Ibson(大数据负责人 )/ Bruce(数据工程师) 01 背景介绍 行业 流利说是领先的科技驱动的教育公司,公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统,致力于为用户提供一整套系统性的英语学习解决方案,从听、说、读、写多个维度提升用户的英语水平。 业务特征 AI 打分:利用大数据和人工智能算法对用户英语口语评测、写作打分。 个性化推荐: 根据用户学习目标及评级,自动推荐专项和强化课程内容。 数据驱动: 通过分析用户画像和学习效果,优化推荐策略,提升用户满意度。 数据运营:基于大数据及用户特征,提高运行效率,提升用户黏度及用户满意度 。 原有架构痛点 弹性资源管理问题:资源配置不够灵活,定时定量弹出,任务提交高峰会出现任务等待,低峰时段资源利用率低。 费用问题:
………………………………