股资源-股票学习站-学炒股-股票课程-炒股教程-分析选股指标-入门基础知识

 找回密码
 注册昵称

QQ登录

只需一步,快速开始

搜索
发新帖回复
上一主题 下一主题

大数据之路-阿里巴巴大数据实践

 
    [-----复制链接-----]

22万

主题

22万

帖子

14

精华

积分
11042
楼主
2023-10-28 19:57:48
【资料名称】:大数据之路    
【资料描述】:

  目录
  第一章 总述1篇 数据技术篇第2章 日志采集82.1 浏览器的页面日志采集8
  2.1.1 页面浏览日志采集流程9
  2.1.2 页面交互日志采集14
  2.1.3 页面日志的服务器端清洗和预处理15
  2.2 无线客户端的日志采集16
  2.2.1 页面事件17
  2.2.2 控件点击及其他事件18
  2.2.3 特殊场景19
  2.2.4 H5 & Native日志统一20
  2.2.5 设备标识22
  2.2.6 日志传输23
  2.3 日志采集的挑战24
  2.3.1 典型场景24
  2.3.2 保障26第3章 数据同步29
  3.1 数据同步基础29
  3.1.1 直连同步30
  3.1.2 数据文件同步30
  3.1.3 数据库日志解析同步31
  3.2 阿里数据仓库的同步方式35
  3.2.1 批量数据同步35
  3.2.2 实时数据同步37
  3.3 数据同步遇到的问题与解决方案39
  3.3.1 分库分表的处理39
  3.3.2 高效同步和批量同步41
  3.3.3 增量与全量同步的合并42
  3.3.4 同步性能的处理43
  3.3.5 数据漂移的处理45第4章 离线数据开发48
  4.1 数据开发平台48
  4.1.1 统一计算平台49
  4.1.2 统一开发平台53
  4.2 任务调度系统58
  4.2.1 背景58
  4.2.2 介绍59
  4.2.3 特点及应用65第5章 实时技术68
  5.1 简介69
  5.2 流式技术架构71
  5.2.1 数据采集72
  5.2.2 数据处理74
  5.2.3 数据存储78
  5.2.4 数据服务80
  5.3 流式数据模型80
  5.3.1 数据分层80
  5.3.2 多流关联83
  5.3.3 维表使用84
  5.4 挑战&保障86
  5.4.1 特征86
  5.4.2 保障88第6章 数据服务91
  6.1 服务架构演进91
  6.1.1 DWSOA92
  6.1.2 OpenAPI93
  6.1.3 SmartDQ94
  6.1.4 统一的数据服务层96
  6.2 技术架构97
  6.2.1 SmartDQ97
  6.2.2 iPush100
  6.2.3 Lego101
  6.2.4 uTiming102
  6.3 实践103
  6.3.1 性能103
  6.3.2 稳定性111第7章 数据挖掘116
  7.1 数据挖掘概述116
  7.2 数据挖掘算法平台117
  7.3 数据挖掘中台体系119
  7.3.1 挖掘数据中台120
  7.3.2 挖掘算法中台122
  7.4 数据挖掘案例123
  7.4.1 用户画像123
  7.4.2 互联网反作弊125第2篇 数据模型篇第8章 大数据领域建模综述1308.2 关系数据库系统和数据仓库131
  8.3 从OLTP和OLAP系统的区别看模型方法论的选择132
  8.4 典型的数据仓库建模方法论132
  8.4.1 ER模型132
  8.4.2 维度模型133
  8.4.3 Data Vault模型134
  8.4.4 Anchor模型135
  8.5 数据模型实践综述136第9章 数据整合及管理体系138
  9.1 概述138
  9.1.1 定位及价值139
  9.1.2 体系架构139
  9.2 规范定义140
  9.2.1 名词术语141
  9.2.2 指标体系141
  9.3 模型设计148
  9.3.1 指导理论148
  9.3.2 模型层次148
  9.3.3 基本原则150
  9.4 模型实施152
  9.4.1 业界常用的模型实施过程152
  9.4.2 OneData实施过程1540章 维度设计159
  10.1 维度设计基础159
  10.1.1 维度的基本概念159
  10.1.2 维度的基本设计方法160
  10.1.3 维度的层次结构162
  10.1.4 规范化和反规范化163
  10.1.5 一致性维度和交叉探查165
  10.2 维度设计主题166
  10.2.1 维度整合166
  10.2.2 水平拆分169
  10.2.3 垂直拆分170
  10.2.4 历史归档171
  10.3 维度变化172
  10.3.1 缓慢变化维172
  10.3.2 快照维表174
  10.3.3 极限存储175
  10.3.4 维度178
  10.4 特殊维度180
  10.4.1 递归层次180
  10.4.2 行为维度184
  10.4.3 多值维度185
  10.4.4 多值属性187
  10.4.5 杂项维度1881章 事实表设计190
  11.1 事实表基础190
  11.1.1 事实表特性190
  11.1.2 事实表设计原则191
  11.1.3 事实表设计方法193
  11.2 事务事实表196
  11.2.1 设计过程196
  11.2.2 单事务事实表200
  11.2.3 多事务事实表202
  11.2.4 两种事实表对比206
  11.2.5 父子事实的处理方式208
  11.2.6 事实的设计准则209
  11.3 周期快照事实表210
  11.3.1 特性211
  11.3.2 实例212
  11.3.3 注意事项217
  11.4 累积快照事实表218
  11.4.1 设计过程218
  11.4.2 特点221
  11.4.3 特殊处理223
  11.4.4 物理实现225
  11.5 三种事实表的比较227
  11.6 无事实的事实表228
  11.7 聚集型事实表228
  11.7.1 聚集的基本原则229
  11.7.2 聚集的基本步骤229
  11.7.3 阿里公共汇总层230
  11.7.4 聚集补充说明234第3篇 数据管理篇2章 元数据236
  12.1 元数据概述236
  12.1.1 元数据定义236
  12.1.2 元数据价值237
  12.1.3 统一元数据体系建设238
  12.2 元数据应用239
  12.2.1 Data Profile239
  12.2.2 元数据门户241
  12.2.3 应用链路分析241
  12.2.4 数据建模242
  12.2.5 驱动ETL开发2433章 计算管理245
  13.1 系统优化245
  13.1.1 HBO246
  13.1.2 CBO249
  13.2 任务优化256
  13.2.1 Map倾斜257
  13.2.2 Join倾斜261
  13.2.3 Reduce倾斜269
  4章 存储和成本管理275
  14.1 数据压缩275
  14.2 数据重分布276
  14.3 存储治理项优化277
  14.4 生命周期管理278
  14.4.1 生命周期管理策略278
  14.4.2 通用的生命周期管理矩阵280
  14.5 数据成本计量283
  14.6 数据使用计费2845章 数据质量285
  15.1 数据质量保障原则285
  15.2 数据质量方法概述287
  15.2.1 消费场景知晓289
  15.2.2 数据加工过程卡点校验292
  15.2.3 风险点监控295
  15.2.4 质量衡量299第4篇 数据应用篇6章 数据应用304
  16.1 生意参谋305
  16.1.1 背景概述305
  16.1.2 功能架构与技术能力307
  16.1.3 商家应用实践310
  16.2 对内数据产品平台313
  16.2.1 定位313
  16.2.2 产品建设历程314
  16.2.3 整体架构介绍317
  附录A 本书插图索引320
  内容提要
  在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年 购物狂欢节 的24小时中,金额达到了1207亿元人民币,峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
  作者介绍
  数据技术及产品部是所属的数据业务部门,该部门最为熟知大阿里的整个大数据业务发展。该部门的几位员工结合实践完成本书。主要分析近几年的数据挖掘、分析、应用的探索经历。本书适合所有搞数据研究、数据分析的个人或企业学习参考。
  编辑推荐
  Alibaba,作为距离大数据近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,Alibaba一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,Alibaba对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。《大数据之路:Alibaba大数据实践》就是在这个过程中,由Alibaba数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。




【下载地址隐藏】:                    点:回复可见地址
游客,如果您要查看本帖隐藏内容请回复






上一篇:读心术 方刚著 安徽教育
下一篇:生活中的心理操纵术 张利
回复

举报

QQ|

GMT+8, 2024-11-25 15:37

快速回复 返回顶部 返回列表