收起
首先简单介绍Apache Kylin的核心架构和工作原理;
然后介绍如何使用Kylin结合Hadoop/HBase等主流开源工具构建大数据分析平台;着重讲解如何使用Kylin做企业级部署,满足企业对高性能,高可靠,高安全等要求。
讲师:史少锋 Kyligence技术合伙人&资深架构师,Apache Kylin PMC
资深软件架构师,Apache
Kylin核心开发者和项目管理委员会成员(PMC),专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师,IBM云计算部门软件架构师;曾是IBM公有云Bluemix
dev&ops团队核心成员,负责平台的规划、开发和运营。
InfluxDB 是一个开源分布式时序、事件和指标数据库。使用 Go 语音编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展。本次分享会对 InfluxDB 进行全面的讲解,包括InfluxDB的原理与架构,并且会指出InfluxDB存在的“坑”。具体会从InfluxDB的基础概念、如何使用InfluxDB、集群设计和存储引擎几方面进行。
讲师:陈超 七牛技术总监
国内著名大数据专家,七牛云技术总监,全面负责七牛所有数据产品的设计与研发,近年来一直专注于分布式计算与机器学习等领域,有非常丰富的分布式系统设计与实现的经验,在分布式数据库方面也有深入研究。多次担任spark
summit china、open cloud、大数据峰会等大型会议演讲嘉宾。
如何简化用户传输,清洗,建立数据仓库等流程,降低用户使用大数据的门槛,提供丰富的API接口,避免用户使用不当遇到的各种坑;基于docker的调度管理系统负责定时或者将用户指定的image加入统一调度集群,具有任务依赖管理,高效调度,自动容错,优先级控制,环境隔离的优势,免除用户各种运维相关问题,专注核心业务逻辑的开发。
讲师:申贤强 搜狗资深高级工程师
搜狗基础平台部,主要负责Hadoop,HBase,Docker等基础平台的开发和建设。毕业于中科院计算所,曾任百度网页搜索部高级工程师,负责百度分布式架构开发。
主要分享的内容包括:
1. 实时日志检索:grep+awk --> Hive UDF --> ELK
2. 多维监控系统HBase --> TSDB + 自定义UI
3. 实时流计算 Redis --> Storm + Spark Streaming
讲师:吴瑞诚 斗鱼大数据团队负责人
全面负责斗鱼大数据团队的平台规划、系统架构设计、集群环境运维、技术预研与落地,也是从0到1搭建公司大数据平台和组建团队的核心。在大数据方向,经历了大公司高大上的技术规模,也经历了一个小公司的大数据平台成长之路。背靠开源生态,应用短平快的方式,支撑起一个千万级用户的在线直播平台。曾任淘宝大数据开发(HBase)高级工程师、一号店应用架构师。
携程做为国内间夜量第一的OTA,日增量开关房操作日志千万级大数据,通过机器学习人工开关房操作时的变量与结果,预测系统中假可订真满房的房型,指引人工询房及时关房,降低满房率。预测出假满房真可订的房型,机器代替人工主动打开假满房的房型售卖,提高库存竞争力。本次分享将重点介绍XGBOOST/GBDT等有监督的机器分类算法中变量预处理、变量筛选和淘汰、算法调优等方法。也会分析模型上线技术架构以及经验教训。
讲师:潘鹏举 携程酒店研发部BI经理
负责酒店服务相关的业务建模工作,主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化,专注于算法实践和应用。多年数据从业者,扎根于互联网机器学习和深度学习领域,曾从事数据分析、闯荡咨询行业、当数据架构师、数据PM,期望通过算法和业务的结合提升业务,用数据创造更大的价值。
2012年加入携程,从事数据分析、数据架构等相关工作,2014年后专注机器学习领域,带领团队用算法帮助业务提升效率、减少人力成本、提高业务产量,用算法创造价值。目前和团队同事一起致力于用机器学习优化酒店预订服务流程,提高客户感受,让机器做机器擅长的事情。
介绍雪球大数据体系从无到有的搭建过程,在公司内部的推广过程,以及当前由大数据体系支撑的用户画像,推荐,反垃圾,广告,用户筛选等业务应用。
讲师:唐福林 雪球首席架构师
负责雪球后端整体架构,性能和稳定性提升,以及大数据体系建设。 在加入雪球之前,作为前新浪微博技术委员会成员,微博平台资深架构师,在微博期间深度参与微博快速增长期的性能和稳定性问题解决。
分享内容包括:
1. AdMaster 数据收集系统的演进, 相关开源软件选型和改进
2. 日志清洗系统的演进, 相关开源软件选型和改进
3. 数据分析平台和统一监控系统的设计开发
讲师:刘喆 Admaster资深架构师
主要负责数据处理的全流程技术支持, 高性能和高可用的分布式架构设计, DSL 语言抽象, Hadoop/HBase/Storm/Spark等大数据平台优化。曾就职百度, 负责当时全球规模最大的 hadoop 平台的运维开发工作,曾任人民搜索运维总监。多年专注于数据挖掘/大数据/DSL/系统架构, 对分布式计算/分布式架构和程序语言有深入的理解, 曾多次受邀分享Hadoop/spark/开源软件等相关经验。
分享58赶集内部已经落地的实时统计分析平台(内部代号“飞流”)。该平台无需编程,任务开发完全配置化;提供了丰富的数据统计分析方法,以及多维分析功能;具备很好的实时性、扩展性与可靠性。将重点介绍“飞流”平台的整体设计与实现细节。
讲师:赵健博 58赶集大数据平台资深架构师
负责58整个大数据平台的研发,应用与发展规划。2009年毕业于中国科学院计算技术研究所,先后就职于百度、奇虎360、58赶集担任大数据领域专家,主要研究领域包括分布式存储与计算系统等。
从美团的数据平台架构切入,再重点讲述其中关键组件-ETL调度系统的设计开发原理以及如何利用Hive语法解析进行血缘分析,最后讲述Hive解析在数据仓库生态系统中的各类应用。
讲师:郑刚 美团高级技术专家
参与美团数据仓库建设和数据平台搭建从0到1的全过程,主持领导开发调度系统、自助查询平台、SQL语法解析等多个关键系统和服务,致力于用大数据解决业务痛点,提升运营效率。
峰会协办方:
讲师&议题持续招募
欢迎业界更多在大数据技术方向上做出突出贡献的研发/产品团队或个人,继续自荐成为ITA1024大数据技术专题月系列分享交流活动的专家讲师,持续引爆大数据技术的顶级交流!
议题及讲师推荐发邮件至:openday@ita1024.com,等你来!
互联网技术联盟(ITA1024)是由京东、美团点评、小米、滴滴、携程、网易、搜狐、乐视、当当、途牛、饿了么、58、猎豹等TOP100的互联网服务和
七牛、青云、听云、DaoCloud、UCloud、有云等技术服务联合发起的国内最大的企业间技术交流组织,专注于互联网+技术与创新。
联盟精心组织的1024系列技术峰会,由每周一期的线上万人课堂和每月一次的技术大会组成。每月一个技术主题,由联盟成员企业推荐的国内一流技术专家联手打造,分享如何通过一线技术应用案例和最佳实践,支撑和驱动业务成长。
联盟还通过官方网站(www.ita1024.com),官方微信公众(ita1024k),ITA1024技术月刊等多种形式,将精品技术内容精准推送给细分领域专业人群。
点击本页面上方“我要报名”,正确填写个人信息,完成报名;
温馨提示
本次课程机会难得,由于报名人数较多,将对申请参会者进行资格审核,请您务必填写正确的个人信息以便通知(短信、邮件)及时送达,保证您的顺利参与。
1、本活动具体服务及内容由主办方【ITA1024】提供,活动行仅提供票务技术支持,请仔细阅读活动内容后参与。
2、如在活动参与过程中遇到问题或纠纷,双方应友好协商沟通,也可联络活动行进行协助。