首页天道酬勤大数据架构师技术分享(java架构师指南 pdf)

大数据架构师技术分享(java架构师指南 pdf)

admin 11-30 22:31 199次浏览

前言

又是一个阳光明媚的下午。老板把勇敢的小蜜蜂叫到办公室。桌上是一个案例,Boss某大学的大数据咨询项目。老板说:“上次大数据报告写得好,太牛逼了!”这里有一个案例,只是为了让你有一个真正的战斗。''

你对大数据项目的常见场景有深入的了解吗?

实验型部署场景

2.1.1 背景介绍

A大学是国内知名大学,其计算机科学和应用数学在国内学科中处于领先地位。其毕业生多曾在相关研究机构或国际知名IT公司工作。

随着大数据技术与应用的蓬勃发展和国家大数据发展战略在学科建设中的深入实施,该校决定抓住这一历史机遇,充分发挥学科优势,在大数据分析领域培育新的优势学科。因此,该大学推动在计算机科学系和应用数学系之间建立跨学科联合实验室。实验室(以下统称大数据科学实验室)紧贴社会需求,响应时代号召,定位于培养符合时代要求的大数据人才。

00-1010大数据科学实验室作为计算机科学系和应用数学系的联合实验室,承担着两个系在计算机科学和应用数学方向的本科和研究生教学任务。同时,应用数学中的许多科研任务需要使用大量的计算资源进行数据分析,也需要使用大数据科学实验室的设备。

但这两个学科和不同类型的教学科研任务,在大数据科学实验室的设备上相互竞争,有时甚至相互冲突,影响了各项任务的顺利进行。比如计算机科学本科教学大纲中有一门实验课,安排本科生搭建一个基本的Hadoop环境,并在此基础上开发简单的分析应用。然而,应用数学研究需要大量的计算资源来为机器学习模型训练海量数据,这两项任务之间存在明显的竞争关系。即使是已经运行了几百PU小时的模型训练任务,也因为机器配置和人员操作失误而意外停机,进一步加剧了问题。

虽然有一笔钱可以购买设备,但预算不够,在如何配置软件和硬件上也有差异。

一方面,预算有限,另一方面,我们希望以最高的性价比获得尽可能多的计算和存储能量,甚至拥有无限数量的节点。这真的令人担忧,实验室主任只能求助于专业的大数据顾问。

2.1.2 面临的问题

英雄小蜜蜂和几个实验室师生坐下来聊天,发现在大数据科学实验室进行的实验包括以下几个部分。

(1)教学实验:安装大数据环境,并在此基础上设计运行简单的分析应用,所需存储和计算资源较少。

(2)新架构研究与实验:对大数据存储与计算架构的实验研究,以及通过大量压力测试对架构性能的评估与提升,这些应用一般对存储与计算资源的要求较高。

(3)机器学习研究实验训练机器学习模型,包括神经网络模型、统计模型、图模型等。它们主要是计算密集型批处理应用程序。

勇敢的小蜜蜂也了解到,由于实验室建立时间较短,实验室设备虽然有专人管理,但缺乏管理工具的支持,只能通过机器密码实现简单的安全管理。

实验室设备构成复杂,包括高性能服务器和老旧台式电脑,各种实验对计算资源的占用率不同。因此,由管理员手动调度设备资源是无效的。

由于各种实验对计算资源的消耗差异很大,有些实验严重浪费了宝贵的计算资源。

实验使用的数据均为公开可得的开放数据,对数据安全要求不高。每个数据本身的大小

勇敢的小蜜蜂迅速给出建议,建议使用廉价的PC服务器虚拟化解决方案开源全机械数据分析平台。PC服务器在满足存储需求的同时,获得了不错的计算能力。采用虚拟化方案,提高机器利用率,减少实验间干扰。开源全检数据分析平台可以在单一计算框架下集成神经网络模型、统计模型和图模型的操作。

勇敢的小蜜蜂回到单位,很快就写完了咨询报告,提交到老板的邮箱里。第一个咨询项目完成了!

00-1010第二天,电话里传来了Bo ss低沉的声音:“勇敢的小蜜蜂马上就来我办公室!”英雄小蜜蜂原本快乐的心突然咳嗽了一声。你不是举报老板不满意吗?这只勇敢的小蜜蜂战战兢兢地走进了战略情报局的办公室。没想到,博拍了拍勇敢的小蜜蜂的肩膀说:“最近干得不错。最后一个案例客户非常满意。我这里还有案子。我喜欢你。”

勇敢的小蜜蜂从博那里得到ca材料,看起来很眼熟。不就是上周在网上搞营销的公司吗?他们的产品设计新颖,用户口碑相当不错。勇敢的小蜜蜂明白oss是在把重任委托给他,于是勇敢的小蜜蜂立即向Boss下达了军令,并签署了任务承诺书。

2.1.3 需求分析

t">2.2.1 背景介绍

英勇的小蜜蜂回到办公位立刻对 公司进行了全方位搜索, 公司是行业新玩家 但是凭借自己在用户体验方面的独门绝技 很快站稳了脚跟,井且拥有了忠实的客户群。B公司虽然员工规模不大,但业务发展异常迅猛,正向行业领头羊地位发起总攻。

英勇的小蜜蜂对 公司做了 360度调查后,拨通 公司电话说明来电意图,井约定当面拜访B公司进行现场调研。

公司老总接待了英勇的小蜜蜂,并向英勇的小蜜蜂介绍了咨询目的。公司是 家新创立的企业,其最初的企业定位就是以极致的用户体验与客户参与为差异化竞争点,通过微信、论坛、问答网站等各种渠道建立起与用户的密切联系与紧密互动,直接将客户

声音融入产品开发流程,提升客户的参与度与粘度 ,提高产品的用户体验。同时B公司特别重视市场分析与品牌战略,将量化的市场分析融入决策流程,所有重要决策都要有数据支撑,并且不遗余力地进行品牌建设,打造科技、时尚的企业形象。这种独特的竞争策略取得了巨大的成功,使得 公司业务规模持续保持高速增长。

老总还邀请英勇的小蜜蜂参观士客服中心,安排英勇的小蜜蜂参加了某产品开发团队、市场分析团队的例会,并与团队成员进行了面对面交谈,还邀请英勇的小蜜蜂参加了一个产品的策划会。英勇的小蜜蜂确实感受到这是 家朝气蓬勃的公司,虽然工作压力很大,但每位员工都清楚地知道自己的责任并为之奋斗。

2.2.2 面临的问题

在B公司开发团队例会和产品策划会上,英勇的小蜜蜂发现各种各样的数据、图表是团队做决策的重要依据。而这些报表都是由市场分析团队综合网络、呼叫中心等各种用户沟通渠道反馈的用户需求,以及各类竞争厂商相关竞情信息,进行深入分析得到的深度洞察, 公司虽然年轻,但却有 个能准确把握客户需求与竞情事态的分析团队。B公司处于业务的快速增长期,对数据分析的需求也持续增长,但合格的数据分析师短缺的问题却很难在短期内通过招聘和内部培养解决。英勇的小蜜蜂在与分析团队沟通中了解到, 公司信息化程度处于初级水平,信息的采集需要分析人员人工进行,耗时费力。而数据分析与可视化主要依赖Excel表格,而Exce 模版开发的周期长,响应市场、开发团队的需求变化不灵活,随着产品线的扩大,新的分析需求不断涌现,而用户的增长也使得数据量急剧上升,传统的方式已经逐渐不能应对新的形势。因为采用人工采集的方式,因此原始数据格式不一,保存归档也没有工具支撑,导致数据的重用性差。分析团队迫切地需要自动化数据采集、清洗与预处理流程,并且需要更加高效的数据分析与可视化工具

同样面临人手缺乏问题的还有客服团队,随着客户群的快速增长,客服团队虽然一再扩充,仍然难以满足实际需求,而场地、成本等其他因素也制约了客服团队进一步的扩大。英勇的小蜜蜂参观客服中心时了解到客服系统虽然实现了统一通信,建立了客户资料数据库,但用户问题的解答全部依赖话务员经验,并且每次客户沟通都要客服人员手工录入客户资料数据库,进一步加大了话务员的工作压力。与此同时,虽然花费巨大力气建立了客户资料数据库 但却没有充分地发挥出其作用。客服团队迫切需要一个智能机器人帮助自动回答一些常见问题,并能够自动地补充客户资料数据库,以减轻话务员的压力。

B公司老总是典型的zydhj人才,关于信息化和数据分析都有更深入的思考,考虑到公司未来 年可预期的高速增长,老总希望能够高起点地搭建一套大数据系统,将数据的采集、清洗 预处理 存储 分析自动化,重构现有的应用 。同 基于大数据平台和累积的用户数据 问答数据和各类实时数据 以构建全新的用户画像系统为核心 依此构建舆情监控 自动问答 客户关怀 上层应用 。投资预算相对宽松。

完成对客户的拜访 英勇的小蜜蜂带着调研资料回到公司,马上投入到紧张的需求分析中。

2.2.3 需求分析

从调研可见, 公司现有业务系统比较简单,若将现有业务全部迁移到新系统中重新实现,则系统的设计受历史因素约束少,在预算宽裕的前提下,系统架构可以主要基于当前和未来的业务需求进行设计。

从调研结果看 公司的需求涉及数据的采集、清洗、预处理、存储与分析计算几个方面,所需实现的业务都是BI 、用户画像、知识体系、知识管理、舆情监控、问答系统等非关键型业务。数据规模中等,对计算能力、实时性、 高可用性、元余备份的要求都不太苛刻。但因为涉及的都是公司核心数据,因此对数据安全性要求很高。

数据来自外部的互联网、社交网络和内部的呼叫中心等多个渠道,除历史数据统一迁移外,数据主要以增量的方式积累,需要相应的数据来集接口,且由于数据来源的多样性导致数据形式与质量不 需要一套完善的ET 系统管理数据的接入、清洗与预处理。

原始数据很大一部分是语音、文字等非结构化类型的数据 需要采用相应的自然语言处理技术进行处理和分析,这类应用主要是以流式应用为主。结构化的数据主要用来做决策支持,需要搭建数据仓库和相应 系统,这类应用 主要 以批处理和交互式应用为主。

B公司前期没有专门的机房和专业 管理员,机房工程设计与施 能力缺失,在需要部署和运维中等规模大数据集群的前提下,需要采用tum -key交付方式 在预算充足的情况下,为减轻对盯 理的压力,应尽 选择成熟、功能完 的大数据平台管理系统。

B公司对本次上大数据非常重视,成立了以老总为第 负责人的领导小组,但B公司整体的IT 能力较欠缺,需要抽取骨干人员尽早接受专业培训,并且直接参与大数据建设 数据分析工 的变化,分析团队也应抽取骨干人员尽早接受新具的培训和使用

中兴通讯大数据平台DAP是经过大 实践检验的、成熟的大数据平台,能够提供完善 ETL 、存储、流分析、批处理分析、管理、安全和技术支持能力,并且有强大而 有经验的 程服务团队,同时能够提供IT运维管理、大数据分析工具等全方位的培训服务 因此,在预算充分的情况下,英勇的小蜜蜂觉得硬件采用商用服务器,软件采用DAP大数据 台的方案是 个不错的选择

连续奋战了 个昼夜,英勇的小蜜蜂终于制定出来 套基于DAP 的详细技术方案并交到Boss案头 Boss看了英勇的小蜜蜂的方案,大加赞赏,将英勇的小蜜蜂提升为团队主管。

大数据项目常见场景,你有过深入了解吗?

大型部署场景

Boss将每团队 给英勇的小蜜蜂带领的同时,又给了英勇的小蜜蜂另 个更大的挑战这次 到的任务让英勇的小蜜蜂格外兴奋,这是 家著名的国际化大公司 公司,希望采用大数据技术 构整合自己的业务系统,当前阶段虽然项目目标并不算明晰,但公司已经准备了过亿元人民币的预算规模

能够为 公司 身定制 套大数据方案无疑是业内所有架构师的梦想,当然其中的挑战也是毋庸置疑的 如此难得的机遇,像鞭子 样鞭策着英勇的小蜜蜂,促使英勇的小蜜蜂立马向Boss表态:保证带领团队完成任务!

英勇的小蜜蜂 即召集团队人员展开专题研究。首先与客户领导建立联合工作机制,收集和理解客户的需求,反馈需要求助的问题,协调项目整体进展:其次与客户各部门IT运维人员联系,摸清企业的数据视图与业务流程;最后,在前面工作的基础上,与客户各部门的业务人员 起制订业务的开发与交割方案。

2.3.1 背景介绍

C公司拥有长期的信息 建设历史和富有经验的IT管理团队,其系统信息 水平较高,各种类型的生产系统已经在公司运行多年,并积累了海量的历史数据。在大数据不断重塑互联网行业 并不断向各种传统行业渗透的浪潮下, 公司也希望引入大数据相关的技术,为公司开拓新的价值增长点。

为保障项目成功实施 公司也组建以首席技术官(CTO)为总负 人、以各业务部门主管为成员的专项小组。英勇的小蜜蜂带领团队入驻 公司后立即进入专项小组,井将各团队派驻到相关部门开展摸底调研。

2.3.2 面临的问题

作为公司高层领导, C公司 TO也深知当前存在的诸 问题,如业务系统新老井存,部门墙导致数据分散无法充分利用。C公司对于大数据虽然有总体的目标,但如何让项目满足经济可行性井最终落地,尚有较多的困惑。其中主要集中在如下两个方面:

(1)大数据系统与现有生产系统之间是怎样的关系 采用何种方式获取数据

(2 )利用大数据技术构建何种业务应用 如何证明这些业务应用产生了经济效益而不仅仅是在消耗公司宝贵的资源。

2.3.3 需求分析

英勇的小蜜蜂深知对于这类项目, 数据集成是其成功的必要条件 而将原本分散在不同的业务系统中的数据清洗、集成系统 的大数据仓库,再借助大数据平台强大的分析能力,无疑可以极大地提升数据的可用性和价值,把原本沉睡在各部门数据库中孤立的、无法利用的包袱转化为有价值产出的金矿。

基于大数据仓库海量的存储能力能够提供的企业数据视角,结合大数据分析能力,企业可以做到对外部市场和内部运营状况的深度洞察,通过数据分析与指标的化,提高企业运行的透明度,进而提高支撑决策的精确性与科学性,是未来提高企业竞争力的核心。

企业现有的应用系统基于的技术与平台复杂多样,甚至存在很多早已过时的技术与架构,且各种应用间数据交互与共享方式异常复杂,导致整个系统的维护成本

很高。而且由于各个应用系统都是独立建设的 独享硬件资源而无法实现设备资源共享,也带来了大量的资源浪费,使用成本居高不下。如果能够基于大数据平台逐渐地将这些应用迁移过来,统 套大框架下,借助大数据平台先进的技术架构和能力,无疑可以极大降低后续使用与维护成本。

通过与团队成员的大量讨论,英勇的小蜜蜂很快制定出了以数据集成和应用迁移为核心的宏大的大数据实施方案。当英勇的小蜜蜂满怀信心地将方案提交给客户后,该方案却得到C公司 CTO与各部门主管的 致反对。

经过短暂的震惊后,英勇的小蜜蜂马上做出调整,分别与CT 和部门主管们进行深度交流。认识到老的业务系统虽然存在 些问题,但己经稳定运行了多年,可靠性和功能都是可以保证的。而新方案对公司当前IT系统的改变太大,存在很多不确定因素。该方案不仅实施周期长、见效慢,而且对公司的运作冲击太大,造成很大的成本压力。

经过深入调研,英勇的小蜜蜂对客户的需求理解又得到了进 步的加深。英勇的小蜜蜂意识到架构师在设计时不能仅考虑技术因素,还要考虑更多的现实约束,包括投资成本、建设周期,以及抗冲击与风险。大数据项目的建设应尽快带来效益亮点 ,通过滚动的规划,快速上线可实现经济效益的业务应用,给客户以信心,并进 步推动大数据项目的持续、深入开展。

经过深入的分析,英勇的小蜜蜂对方案进行了大幅修改。在大数据平台层面, 强调大数架构设 灵活性和可演进性,为系统未来的漆动重构预留了设计余量;在大数据业务应用层面, 优先规划可以提升当前生产系统效率的应用 ,以满足经济可行性的要求与压力

同时,通过对 公司原有业务流程的分析,英勇的小蜜蜂在新规划的大数据仓库基础上,借助海量的数据及庞大的计算能力,构建了 组可反映企业运营状态的KP 指标,井每天以报表的形式输出

新的方案提交客户后,得到了CTO和部门主管们的一致认可。

本文摘自大数据架构师指南,转载标明出处。

大数据项目常见场景,你有过深入了解吗?

云分发网络有什么用处?操作指南 物理云主机 UPHostJava0基础_day11-抽象类与接口
大白话视频摄影教程(linux基础命令) 数据科学家和数据分析师(数据科学和商业分析)
相关内容