Apache大数据组件

概述

大数据的处理模式大体可以分为批处理(也可称为离线计算)、流式计算(数据实时性高)、在线处理(即时响应)和交互式分析(允许分钟级)四种。

  • 大数据的4V属性
    数量(Volume),多样性(Variety),速度(Velocity),真实性(Veracity)

HDFS

组成组件

Read More

Comments

Spark计算平台

前言

官方文档

相关平台

Comments

Java高级篇

前言

本系列文章将分为三部分:

Java基础篇

  • 语法篇
  • 数据结构篇
  • 集合框架

Read More

Comments

Java基础篇

前言

本系列文章将分为三部分:

Java基础篇

  • 语法篇
  • 数据结构篇
  • 集合框架

Read More

Comments

Linux 系统管理常用命令(不定时更新)

运行脚本的方法

常用运行方法:

1
2
3
4
5
6
$ bash a.sh
$ chmod +x a.sh
$ ./a.sh
$ source a.sh

Read More

Comments

数据结构基础

Tree

完全二叉树

只有最下面的两层结点度小于2,并且最下面一层的结点都集中在该层最左边的若干位置的二叉树,不一定有排序;

满二叉树

除了叶结点外每一个结点都有左右子叶且叶结点都处在最底层的二叉树。

平衡二叉树(AVL)

平衡二叉树(Balanced Binary Tree)是二叉查找树(也称为排序二叉树,左小于右)的一个进化体,也是第一个引入平衡概念的二叉树。1962年,G.M. Adelson-Velsky 和 E.M. Landis发明了这棵树,所以它又叫AVL树。平衡二叉树要求对于每一个节点来说,它的左右子树的高度之差不能超过1,如果插入或者删除一个节点使得高度之差大于1,就要进行节点之间的旋转,将二叉树重新维持在一个平衡状态。这个方案很好的解决了二叉查找树退化成链表的问题,把插入,查找,删除的时间复杂度最好情况和最坏情况都维持在O(logN)。但是频繁旋转会使插入和删除牺牲掉O(logN)左右的时间,不过相对二叉查找树来说,时间上稳定了很多。

Read More

Comments

MySQL

设计

三大范式

范式越高,数据冗余越少,但是增加查询复杂度,表链接时效率更低。范式低,数据冗余高,但是查询会更快。

  • 第一范式,确保属性的原子性,如“地址”属性应该再细分为国家,省,市,区等;
  • 第二范式,如果一个关系满足第一范式,并且除了主键以外的其它列,都依赖于该主键,则满足第二范式;
  • 第三范式,表中每列都与主键直接相关,如订单记录中,虽说顾客编号和顾客名称都与主键(订单编号)相关,满足第二范式,但顾客名称不是直接相关;

Read More

Comments

或明

时值8月,离毕业更近了。

Read More

Comments

ensemble-stacking

测试blog


  • 相比 Blending,Stacking 能更好地利用训练数据。以 5-Fold Stacking 为例,它的基本原理如图所示:
    stacking processing

Read More

Comments

MS-document-online-preview

doc,xls,ppt,pdf实现浏览器在线预览小记


一般有两种方式

方式一:

步骤

文档(PDF,Word,PPT等)–>PDF–>浏览器加载pdf插件在线浏览

转换pdf的软件:

  • office:调用com接口,从而调用软件运行转换程序。

  • Openoffice: 目前隶属于Apache,从Openoffice.org沿袭而来。

  • LibreOffice: OpenOffice.org的分支,第一个正式版。 为3.3,对格式和字体的支持、对插件扩展与Openoffice有所侧重。

Read More

Comments