电商平台实战经验:电商中的Hadoop生态系统应用

chenhaozjnubit | | 2018-01-16
导读:我们都知道Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。而如何将Hadoop生态系统应用到电商中呢?以下和大家分享。技术交流和面试其实有些共通性,比如经常会有类似问题: 如何做到高可用的? 访问峰值达到什么量级? 系统如何撑住的? 高并发下数据一致性如何保证? 如何进行性能优化? 使用了什么新技术? 等等。实际上如果大家对高可用、高并发、高性能的系统 [阅读全文]
ė785次浏览 60条评论 0 Hadoop

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

chenhaozjnubit | | 2018-01-12
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系本文结构首先,我们来分别部署一套hadoop、hbase [阅读全文]
ė942次浏览 60条评论 0 Hadoop

别想当然之Hadoop和虚拟机

chenhaozjnubit | | 2017-03-10
在发了《别想当然之Hadoop和SSD》后,看到西藏电信的同事留言“您这儿有关大数据的文章吗?咱们西藏电信这边看到,他们申请虚拟机资源部署hadoop,CPU十几个C,内存100多个G,存储要几十个T。不知道咱们浙江电信是咋做的,想看下您的文章,借鉴一下。谢谢”后,就想写一篇《别想当然之Hadoop和虚拟机》。确实在我们实际生产中确实遇到过需求部门提出的Hadoop需求,由于时间进度的问题,要求承 [阅读全文]
ė1446次浏览 60条评论 0 Hadoop

MPP 与 Hadoop是什么关系?

chenhaozjnubit | | 2017-03-03
作者:知乎用户链接:https://www.zhihu.com/question/22037987/answer/24496456来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。先从NUMA说起吧,NUMA全称为Non-Uniform Memory Access,是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成,每个N [阅读全文]
ė1017次浏览 60条评论 0 Hadoop

hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker介绍

chenhaozjnubit | | 2015-11-18
问题导读: 1.job的本质是什么? 2.任务的本质是什么? 3.文件系统的Namespace由谁来管理,Namespace的作用是什么? 4.Namespace 镜像文件(Namespace image)和操作日志文件(edit log)文件的作用是什么? 5.Namenode记录着每个文件中各个块所在的数据节点的位置信息,但是他并不持久化存储这些信息,为什么? 6.客户端读写某个数 [阅读全文]
ė990次浏览 60条评论 0 Hadoop

Impala查询功能测试

chenhaozjnubit | | 2015-04-17
关于 Impala 使用方法的一些测试,包括加载数据、查看数据库、聚合关联查询、子查询等等。 1. 准备测试数据 以下测试以 impala 用户来运行: $ su - impala -bash-4.1$ whoami impala $ hdfs dfs -ls /user Found 5 items drwxr-xr-x - hdfs ha [阅读全文]
ė1407次浏览 60条评论 0 Hadoop

Mongodb VS Hbase

chenhaozjnubit | | 2015-04-15
1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。 2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbas [阅读全文]
ė1259次浏览 60条评论 0 Hadoop

分布式计算Hadoop近期学习总结

chenhaozjnubit | | 2015-04-14
Hadoop学习总结  Hadoop是什么东西?什么用?  (一) Hadoop是什么?    一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分 [阅读全文]
ė1162次浏览 60条评论 0 Hadoop