nosql视图,nosql和图数据库

2019数据架构选型必读:1月数据库产品技术解析

本期目录

安丘ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联公司的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18980820575(备注:SSL证书合作)期待与您的合作!

DB-Engines数据库排行榜

新闻快讯

一、RDBMS家族

二、NoSQL家族

三、NewSQL家族

四、时间序列

五、大数据生态圈

六、国产数据库概览

七、云数据库

八、推出dbaplus Newsletter的想法

九、感谢名单

为方便阅读、重点呈现,本期Newsletter(2019年1月)将对各个板块的内容进行精简。需要阅读全文的同学可点击文末 【阅读原文】 或登录

进行下载。

DB-Engines数据库排行榜

以下取自2019年1月的数据,具体信息可以参考,数据仅供参考。

DB-Engines排名的数据依据5个不同的因素:

新闻快讯

1、2018年9月24日,微软公布了SQL Server2019预览版,SQL Server 2019将结合Spark创建统一数据平台。

2、2018年10月5日,ElasticSearch在美国纽约证券交易所上市。

3、亚马逊放弃甲骨文数据库软件,导致最大仓库之一在黄金时段宕机。受此消息影响,亚马逊盘前股价小幅跳水,跌超2%。

4、2018年10月31日,Percona发布了Percona Server 8.0 RC版本,发布对MongoDB 4.0的支持,发布对XtraBackup测试第二个版本。

5、2018年10月31日,Gartner陆续发布了2018年的数据库系列报告,包括《数据库魔力象限》、《数据库核心能力》以及《数据库推荐报告》。

今年的总上榜数据库产品达到了5家,分别来自:阿里云,华为,巨杉数据库,腾讯云,星环 科技 。其中阿里云和巨杉数据库已经连续两年入选。

6、2018年11月初,Neo4j宣布完成E轮8000万美元融资。11月15日,Neo4j宣布企业版彻底闭源:

7、2019年1月8日,阿里巴巴以1.033亿美元(9000万欧元)的价格收购了Apache Flink商业公司DataArtisans。

8、2019年1月11日早间消息,亚马逊宣布推出云数据库软件,亚马逊和MongoDB将会直接竞争。

RDBMS家族

Oracle 发布18.3版本

2018年7月,Oracle Database 18.3通用版开始提供下载。我们可以将Oracle Database 18c视为采用之前发布模式的Oracle Database 12c第2版的第一个补丁集。未来,客户将不再需要等待多年才能用上最新版Oracle数据库,而是每年都可以期待新数据库特性和增强。Database 19c将于2019年Q1率先在Oracle cloud上发布云版本。

Oracle Database 18c及19c部分关键功能:

1、性能

2、多租户,大量功能增强及改进,大幅节省成本和提高敏捷性

3、高可用

4、数据仓库和大数据

MySQL发布8.0.13版本

1、账户管理

经过配置,修改密码时,必须带上原密码。在之前的版本,用户登录之后,就可以修改自己的密码。这种方式存在一定安全风险。比如用户登录上数据库后,中途离开一段时间,那么非法用户可能会修改密码。由参数password_require_current控制。

2、配置

Innodb表必须有主键。在用户没有指定主键时,系统会生成一个默认的主键。但是在主从复制的场景下,默认的主键,会对丛库应用速度带来致命的影响。如果设置sql_require_primary_key,那么数据库会强制用户在创建表、修改表时,加上主键。

3、字段默认值

BLOB、TEXT、GEOMETRY和JSON字段可以指定默认值了。

4、优化器

1)Skip Scan

非前缀索引也可以用了。

之前的版本,任何没有带上f1字段的查询,都没法使用索引。在新的版本中,它可以忽略前面的字段,让这个查询使用到索引。其实现原理就是把(f1 = 1 AND f2 40) 和(f1 = 2 AND f2 40)的查询结果合并。

2)函数索引

之前版本只能基于某个列或者多个列加索引,但是不允许在上面做计算,如今这个限制消除了。

5、SQL语法

GROUP BY ASC和GROUP BY DESC语法已经被废弃,要想达到类似的效果,请使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。

6、功能变化

1)设置用户变量,请使用SET语句

如下类型语句将要被废弃SELECT @var, @var:=@var+1。

2)新增innodb_fsync_threshold

该变量是控制文件刷新到磁盘的速率,防止磁盘在短时间内饱和。

3)新增会话级临时表空间

在以往的版本中,当执行SQL时,产生的临时表都在全局表空间ibtmp1中,及时执行结束,临时表被释放,空间不会被回收。新版本中,会为session从临时表空间池中分配一个临时表空间,当连接断开时,临时表空间的磁盘空间被回收。

4)在线切换Group Replication的状态

5)新增了group_replication_member_expel_timeout

之前,如果某个节点被怀疑有问题,在5秒检测期结束之后,那么就直接被驱逐出这个集群。即使该节点恢复正常时,也不会再被加入集群。那么,瞬时的故障,会把某些节点驱逐出集群。

group_replication_member_expel_timeout让管理员能更好的依据自身的场景,做出最合适的配置(建议配置时间小于一个小时)。

MariaDB 10.3版本功能展示

1、MariaDB 10.3支持update多表ORDER BY and LIMIT

1)update连表更新,limit语句

update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

2)update连表更新,ORDER BY and LIMIT语句

update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

参考:

2、MariaDB10.3增补AliSQL补丁——安全执行Online DDL

Online DDL从名字上看很容易误导新手,以为不论什么情况,修改表结构都不会锁表,理想很丰满,现实很骨感,注意这个坑!

有以下两种情况执行DDL操作会锁表的,Waiting for table metadata lock(元数据表锁):

针对第二种情况,MariaDB10.3增补AliSQL补丁-DDL FAST FAIL,让其DDL操作快速失败。

例:

如果线上有某个慢SQL对该表进行操作,可以使用WAIT n(以秒为单位设置等待)或NOWAIT在语句中显式设置锁等待超时,在这种情况下,如果无法获取锁,语句将立即失败。 WAIT 0相当于NOWAIT。

参考:

3、MariaDB Window Functions窗口函数分组取TOP N记录

窗口函数在MariaDB10.2版本里实现,其简化了复杂SQL的撰写,提高了可读性。

参考:

Percona Server发布8.0 GA版本

2018年12月21日,Percona发布了Percona Server 8.0 GA版本。

在支持MySQL8.0社区的基础版上,Percona Server for MySQL 8.0版本中带来了许多新功能:

1、安全性和合规性

2、性能和可扩展性

3、可观察性和可用性

Percona Server for MySQL 8.0中将要被废用功能:

Percona Server for MySQL 8.0中删除的功能:

RocksDB发布V5.17.2版本

2018年10月24日,RocksDB发布V5.17.2版本。

RocksDB是Facebook在LevelDB基础上用C++写的高效内嵌式K/V存储引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底层的存储都是基于RocksDB来构建。

PostgreSQL发布11版本

2018年10月18日,PostgreSQL 11发布。

1、PostgreSQL 11的重大增强

2、PostgreSQL 插件动态

1)分布式插件citus发布 8.1

citus是PostgreSQL的一款sharding插件,目前国内苏宁、铁总、探探有较大量使用案例。

2)地理信息插件postgis发布2.5.1

PostGIS是专业的时空数据库插件,在测绘、航天、气象、地震、国土资源、地图等时空专业领域应用广泛。同时在互联网行业也得到了对GIS有性能、功能深度要求的客户青睐,比如共享出行、外卖等客户。

3)时序插件timescale发布1.1.1

timescale是PostgreSQL的一款时序数据库插件,在IoT行业中有非常好的应用。github star数目前有5000多,是一个非常火爆的插件。

4)流计算插件 pipelinedb 正式插件化

Pipelinedb是PostgreSQL的一款流计算插件,使用这个创建可以对高速写入的数据进行实时根据定义的聚合规则进行聚合(支持概率计算),实时根据定义的规则触发事件(支持事件处理函数的自定义)。可用于IoT,监控,FEED实时计算等场景。

3、PostgreSQL衍生开源产品动态

1)agensgraph发布 2.0.0版本

agensgraph是兼容PostgreSQL、opencypher的专业图数据库,适合图式关系的管理。

2)gpdb发布5.15

gpdb是兼容PostgreSQL的mpp数据库,适合OLAP场景。近两年,gpdb一直在追赶PostgreSQL的社区版本,预计很快会追上10的PostgreSQL,在TP方面的性能也会得到显著提升。

3)antdb发布3.2

antdb是以Postgres-XC为基础开发的一款PostgreSQL sharding数据库,亚信主导开发,开源,目前主要服务于亚信自有客户。

4)迁移工具MTK发布52版本

MTK是EDB提供的可以将Oracle、PostgreSQL、MySQL、MSSQL、Sybase数据库迁移到PostgreSQL, PPAS的产品,迁移速度可以达到100万行/s以上。

DB2发布 11.1.4.4版本

DB2最新发布Mod Pack 4 and Fix Pack 4,包含以下几方面的改动及增强:

1、性能

2、高可用

3、管理视图

4、应用开发方面

5、联邦功能

6、pureScale

NoSQL家族

Redis发布5.0.3版本

MongoDB升级更新MongoDB Mobile和MongoDB Stitch

2018年11月21日,MongoDB升级更新MongoDB Mobile和MongoDB Stitch,助力开发人员提升工作效率。

MongoDB 公司日前发布了多项新产品功能,旨在更好地帮助开发人员在世界各地管理数据。通过利用存储在移动设备和后台数据库的数据之间的实时、自动的同步特性,MongoDB Mobile通用版本助力开发人员构建更快捷、反应更迅速的应用程序。此前,这只能通过在移动应用内部安装一个可供选择或限定功能的数据库来实现。

MongoDB Mobile在为客户提供随处运行的自由度方面更进了一步。用户在iOS和安卓终端设备上可拥有MongoDB所有功能,将网络边界扩展到其物联网资产范畴。应用系统还可以使用MongoDB Stitch的软件开发包访问移动客户端或后台数据,帮助开发人员通过他们希望的任意方式查询移动终端数据和物联网数据,包括本地读写、本地JSON存储、索引和聚合。通过Stitch移动同步功能(现可提供beta版),用户可以自动对保存在本地的数据以及后台数据库的数据进行同步。

本期新秀:Cassandra发布3.11.3版本

2018年8月11日,Cassandra发布正式版3.11.3。

Apache Cassandra是一款开源分布式NoSQL数据库系统,使用了基于Google BigTable的数据模型,与面向行(row)的传统关系型数据库或键值存储key-value数据库不同,Cassandra使用的是宽列存储模型(Wide Column Stores)。与BigTable和其模仿者HBase不同,数据并不存储在分布式文件系统如GFS或HDFS中,而是直接存于本地。

Cassandra的系统架构与Amazon DynamoDB类似,是基于一致性哈希的完全P2P架构,每行数据通过哈希来决定应该存在哪个或哪些节点中。集群没有master的概念,所有节点都是同样的角色,彻底避免了整个系统的单点问题导致的不稳定性,集群间的状态同步通过Gossip协议来进行P2P的通信。

3.11.3版本的一些bug fix和改进:

NewSQL家族

TiDB 发布2.1.2版本

2018 年 12 月 22 日,TiDB 发布 2.1.2 版,TiDB-Ansible 相应发布 2.1.2 版本。该版本在 2.1.1 版的基础上,对系统兼容性、稳定性做出了改进。

TiDB 是一款定位于在线事务处理/在线分析处理( HTAP: Hybrid Transactional/Analytical Processing)的融合型数据库产品。除了底层的 RocksDB 存储引擎之外,分布式SQL层、分布式KV存储引擎(TiKV)完全自主设计和研发。

TiDB 完全开源,兼容MySQL协议和语法,可以简单理解为一个可以无限水平扩展的MySQL,并且提供分布式事务、跨节点 JOIN、吞吐和存储容量水平扩展、故障自恢复、高可用等优异的特性;对业务没有任何侵入性,简化开发,利于维护和平滑迁移。

TiDB:

PD:

TiKV:

Tools:

1)TiDB-Lightning

2)TiDB-Binlog

EsgynDB发布R2.5版本

2018年12月22日,EsgynDB R2.5版本正式发布。

作为企业级产品,EsgynDB 2.5向前迈进了一大步,它拥有以下功能和改进:

CockroachDB发布2.1版本

2018年10月30日,CockroachDB正式发布2.1版本,其新增特性如下:

新增企业级特性:

新增SQL特性:

新增内核特性:

Admin UI增强:

时间序列

本期新秀:TimescaleDB发布1.0版本

10月底,TimescaleDB 1.0宣布正式推出,官方表示该版本已可用于生产环境,支持完整SQL和扩展。

TimescaleDB是基于PostgreSQL数据库开发的一款时序数据库,以插件化的形式打包提供,随着PostgreSQL的版本升级而升级,不会因为另立分支带来麻烦。

TimescaleDB架构:

数据自动按时间和空间分片(chunk)

更新亮点:

大数据生态圈

Hadoop发布2.9.2版本

2018年11月中旬,Hadoop在2.9分支上发布了新的2.9.2版本,该版本进行了204个大大小小的变更,主要变更如下:

Greenplum 发布5.15版本

Greenplum最新的5.15版本中发布了流式数据加载工具。

该版本中的Greenplum Streem Server组件已经集成了Kafka流式加载功能,并通过了Confluent官方的集成认证,其支持的主要功能如下:

国产数据库概览

K-DB发布数据库一体机版

2018年11月7日,K-DB发布了数据库一体机版。该版本更新情况如下:

OceanBase迁移服务发布1.0版本

1月4日,OceanBase 正式发布OMS迁移服务1.0版本。

以下内容包含 OceanBase 迁移服务的重要特性和功能:

SequoiaDB发布3.0.1新版本

1、架构

1)完整计算存储分离架构,兼容MySQL协议、语法

计算存储分离体系以松耦合的方式将计算与存储层分别部署,通过标准接口或插件对各个模块和组件进行无缝替换,在计算层与存储层均可实现自由的弹性伸缩。

SequoiaDB巨杉数据库“计算-存储分离”架构详细示意

用户可以根据自身业务特征选择面向交易的SQL解析器(例如MySQL或PGSQL)或面向统计分析的执行引擎(例如SparkSQL)。众所周知,使用不同的SQL优化与执行方式,数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储,在计算层面则利用每种执行引擎的特点针对不同业务场景进行选择和优化,用户可以在存储层进行逻辑与物理的隔离,将面向高频交易的前端业务与面向高吞吐量的统计分析使用不同的硬件进行存储,确保在多类型数据访问时互不干扰,以真正达到生产环境可用的多租户与HTAP能力。

2、其他更新信息

1)接口变更:

2)主要特性:

云数据库

本期新秀:腾讯发布数据库CynosDB,开启公测

1、News

1)腾讯云数据库MySQL2018年重大更新:

2)腾讯云数据库MongoDB2018年重大更新:

3)腾讯云数据库Redis/CKV+2018年重大更新:

4)腾讯云数据库CTSDB2018年重大更新:

2、Redis 4.0集群版商业化上线

2018年10月,腾讯云数据库Redis 4.0集群版完成邀测、公测、商业化三个迭代,在广州、上海、北京正式全量商业化上线。

产品特性:

使用场景:

官网文档:

3、腾讯自研数据库CynosDB发布,开启公测

2018年11月22日,腾讯云召开新一代自研数据库CynosDB发布会,业界第一款全面兼容市面上两大最主流的开源数据库MySQL和PostgreSQL的高性能企业级分布式云数据库。

本期新秀:京东云DRDS发布1.0版本

12月24日,京东云分布式关系型数据库DRDS正式发布1.0版本。

DRDS是京东云精心自研的数据库中间件产品,获得了2018年 ”可信云技术创新奖”。DRDS可实现海量数据下的自动分库分表,具有高性能,分布式,弹性升级,兼容MySQL等优点,适用于高并发、大规模数据的在线交易, 历史 数据查询,自动数据分片等业务场景,历经多次618,双十一的考验,已经在京东集团内大规模使用。

京东云DRDS产品有以下主要特性

1)自动分库分表

通过简单的定义即可自动实现分库分表,将数据实际存放在多个MySQL实例的数据库中,但呈现给应用程序的依旧是一张表,对业务透明,应用程序几乎无需改动,实现了对数据库存储和处理能力的水平扩展。

2)分布式架构

基于分布式架构的集群方案,多个对等节点同时对外提供服务,不但可有效规避服务的单点故障,而且更加容易扩展。

3)超强性能

具有极高的处理能力,双节点即可支持数万QPS,满足用户超大规模处理能力的需求。

4)兼容MySQL

兼容绝大部分MySQL语法,包括MySQL语法、数据类型、索引、常用函数、排序、关联等DDL,DML语句,使用成本低。

参考链接:

RadonDB发布1.0.3版本

2018年12月26日,MyNewSQL领域的RadonDB云数据库发布1.0.3版本。

推出dbaplus Newsletter的想法

dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势,为社区的技术发展提供一个统一的发声平台。为此,我们策划了RDBMS、NoSQL、NewSQL、时间序列、大数据生态圈、国产数据库、云数据库等几个版块。

我们不以商业宣传为目的,不接受任何商业广告宣传,严格审查信息源的可信度和准确性,力争为大家提供一个纯净的技术学习环境,欢迎大家监督指正。

至于Newsletter发布的周期,目前计划是每三个月左右会做一次跟进, 下期计划时间是2019年4月14日~4月25日, 如果有相关的信息提供请发送至邮箱:newsletter@dbaplus.cn

感谢名单

最后要感谢那些提供宝贵信息和建议的专家朋友,排名不分先后。

往期回顾:

↓↓别忘了点这里下载 2019年1月 完整版Newsletter 哦~

大数据需要掌握哪些技能

大数据技术体系庞大,包括的知识较多

1、学习大数据首先要学习Java基础

Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言。而且不论是学hadoop,

2、学习大数据必须学习大数据核心知识

Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。

3、学习大数据需要具备的能力

数学知识,数学知识是数据分析师的基础知识。对于数据分析师,了解一些描述统计相关的内容,需要有一定公式计算能力,了解常用统计模型算法。而对于数据挖掘工程师来说,各类算法也需要熟练使用,对数学的要求是最高的。

4、学习大数据可以应用的领域

大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛。

以道大数据课程体系都讲什么

大数据技术在如今应用非常广泛,许多想入行学习大数据培训的童鞋不知从何学起,从哪儿开始学首先要根据你的基本情况而定,如果你是零基础的也不需要担心,先从基础开始学起就好了,接下来学习基础java开始、数据结构、关系型数据库、linux系统操作,夯实基础之后,再进入大数据的学习,例如:hadoop离线分析、Storm实时计算、spark内存计算的学习,以道教育大数据课程体系可以如下:

第一阶段 WEB 开发基础

HTML基础

1、Html基本介绍

2、HTML语法规范

3、基本标签介绍

4、HTML编辑器/文本文档/WebStrom/elipse

5、HTML元素和属性

6、基本的HTML元素

6.1 标题

6.2 段落

6.3 样式和style属性

6.3 链接 a

6.4 图像 img

6.5 表格 table

6.6 列表 ul/ol/dl

7、 HTML注释

8、表单介绍

9、Table标签

10、DIV布局介绍

11、HTML列表详解

HTML布局和Bootstrap

1、 HTML块元素(block)和行内元素(inline)

2、使用div实现网页布局

3、响应式WEB设计(Responsive Web Design)

4、使用bootstrap实现响应式布局

HTML表单元素

1、HTML表单 form

2、HTML表单元素

3、 HTML input的类型 type

4、 Html input的属性

CSS基础

1、CSS简介及基本语法

2、在HTML文档中使用CSS

3、CSS样式

4、CSS选择器

5、盒子模型

6、布局及定位

CSS高级/CSS3

1、尺寸和对齐

2、分类(clear/cursor/display/float/position/visibility)

3、导航栏

4、图片库

5、图片透明

6、媒介类型 @media

7、CSS3

8、CSS3动画效果

JavaScript基础

1、JavaScript简介

2、基本语法规则

3、在HTML文档中使用JS

4、JS变量

5、JS数据类型

6、JS函数

7、JS运算符

8、流程控制

9、JS错误和调试

JavaScript对象和作用域

1、数字 Number

2、字符串String

3、日期 Date

4、数组

5、数学 Math

6、DOM对象和事件

7、BOM对象

8、Window对象

9、作用域和作用域链

10、JSON

Javascript库

1、Jquery

2、Prototype

3、Ext Js

Jquery

1、Jquery基本语法

2、Jquery选择器

3、Jquery事件

4、Jquery选择器

5、Jquery效果和动画

6、使用Jquery操作HTML和DOM

7、Jquery遍历

8、Jquery封装函数

9、Jquery案例

表单验证和Jquery Validate

1、用Js对HTML表单进行验证

2、Jquery Validata基本用法

3、默认校验规则和提示信息

4、debug和ignore

5、更改错误信息显示位置和样式

6、全部校验通过后的执行函数

7、修改验证触发方式

8、异步验证

9、自定义校验方法

10、radio 和 checkbox、select 的验证

Java基础

1、关于Java

2、Java运行机制

3、第一个Java程序,注释

4、Javac,Java,Javadoc等命令

5、标识符与关键字

6、变量的声明,初始化与应用

7、变量的作用域

8、变量重名

9、基本数据类型

10、类型转换与类型提升

11、各种数据类型使用细节

12、转义序列

13、各种运算符的使用

流程控制

1、选择控制语句if-else

2、选择控制语句switch-case

3、循环控制语句while

4、循环控制语句do-while

5、循环控制语句for与增强型for

6、break,continue,return

7、循环标签

8、数组的声明与初始化

9、数组内存空间分配

10、栈与堆内存

11、二维(多维)数组

12、Arrays类的相关方法

13、main方法命令行参数

面向对象

1、面向对象的基本思想

2、类与对象

3、成员变量与默认值

4、方法的声明,调用

5、参数传递和内存图

6、方法重载的概念

7、调用原则与重载的优势

8、构造器声明与默认构造器

9、构造器重载

10、this关键字的使用

11、this调用构造器原则

12、实例变量初始化方式

13、可变参数方法

访问权限控制

1、包 package和库

2、访问权限修饰符private/protected/public/包访问权限

3、类的访问权限

4、抽象类和抽象方法

5、接口和实现

6、解耦

7、Java的多重继承

8、通过继承来扩展接口

错误和异常处理

1、概念:错误和异常

2、基本异常

3、捕获异常 catch

4、创建自定义异常

5、捕获所有异常

6、Java标准异常

7、使用finally进行清理

8、异常的限制

9、构造器

10、异常匹配

11、异常使用指南

数据库基础(MySQL)

数据库基础(MySQL)

JDBC

1、Jdbc基本概念

2、使用Jdbc连接数据库

3、使用Jdbc进行crud操作

4、使用Jdbc进行多表操作

5、Jdbc驱动类型

6、Jdbc异常和批量处理

7、Jdbc储存过程

Servlet和JSP

1、Servlet简介

2、Request对象

3、Response对象

4、转发和重定向

5、使用Servlet完成Crud

6、Session和Coolie简介

7、ServletContext和Jsp

8、El和Jstl的使用

Ajax

1、什么是Ajax

2、XMLHttpRequest对象(XHR)

3、XHR请求

4、XHR响应

5、readystate/onreadystatechange

6、Jquery Ajax

7、JSON

8、案例:对用户名是否可用进行服务器端校验

综合案例

1、项目开发一般流程介绍

2、模块化和分层

3、DButils

4、QueryRunner

5、ResultSetHandle

6、案例:用户登录/注册,从前端到后端

第二阶段 Java SE

访问权限和继承

1、包的声明与使用

2、import与import static

3、访问权限修饰符

4、类的封装性

5、static(静态成员变量)

6、final(修饰变量,方法)

7、静态成员变量初始化方式

8、类的继承与成员继承

9、super的使用

10、调用父类构造器

11、方法的重写与变量隐藏

12、继承实现多态和类型转换

13、instanceof

抽象类与接口

1、抽象类

2、抽象方法

3、继承抽象类

4、抽象类与多态

5、接口的成员

6、静态方法与默认方法

7、静态成员类

8、实例成员类

9、局部类

10、匿名类

11、eclipse的使用与调试

12、内部类对外围类的访问关系

13、内部类的命名

Lambda表达式与常用类

1、函数式接口

2、Lambda表达式概念

3、Lambda表达式应用场合

4、使用案例

5、方法引用

6、枚举类型(编译器的处理)

7、包装类型(自动拆箱与封箱)

8、String方法

9、常量池机制

10、String讲解

11、StringBuilder讲解

12、Math,Date使用

13、Calendars使用

异常处理与泛型

1、异常分类

2、try-catch-finally

3、try-with-resources

4、多重捕获multi-catch

5、throw与throws

6、自定义异常和优势

7、泛型背景与优势

8、参数化类型与原生类型

9、类型推断

10、参数化类型与数组的差异

11、类型通配符

12、自定义泛型类和类型擦出

13、泛型方法重载与重写

集合

1 、常用数据结构

2 、Collection接口

3 、List与Set接口

4 、SortedSet与NavigableSet

5 、相关接口的实现类

6 、Comparable与Comparator

7、Queue接口

8 、Deque接口

9 、Map接口

10、NavigableMap

11、相关接口的实现类

12、流操作(聚合操作)

13、Collections类的使用

I/O流与反射

1 、File类的使用

2 、字节流

3 、字符流

4 、缓存流

5 、转换流

6 、数据流

7、对象流

8、类加载,链接与初始化

9 、ClassLoader的使用

10、Class类的使用

11、通过反射调用构造器

12、安全管理器

网络编程模型与多线程

1、进程与线程

2、创建线程的方式

3、线程的相关方法

4、线程同步

5、线程死锁

6、线程协作操作

7、计算机网络(IP与端口)

8、TCP协议与UDP协议

9、URL的相关方法

10、访问网络资源

11、TCP协议通讯

12、UDP协议通讯

13、广播

SSM-Spring

1.Spring/Spring MVC

2.创建Spring MVC项目

3.Spring MVC执行流程和参数

SSM-Spring.IOC

1.Spring/Spring MVC

2.创建Spring MVC项目

3.Spring MVC执行流程和参数

SSM-Spring.AOP

1.Spring/Spring MVC

2.创建Spring MVC项目

3.Spring MVC执行流程和参数

SSM-Spring.Mybatis

1.MyBatis简介

2.MyBatis配置文件

3.用MyBatis完成CRUD

4.ResultMap的使用

5.MyBatis关联查询

6.动态SQL

7.MyBatis缓冲

8.MyBatis-Generator

Socket编程

1.网络通信和协议

2.关于Socket

3.Java Socket

4.Socket类型

5.Socket函数

6.WebSocket

7.WebSocket/Spring MVC/WebSocket Ajax

IO/异步

window对象

全局作用域

窗口关系及框架

窗口位置和大小

打开窗口

间歇调用和超时调用(灵活运用)

系统对话框

location对象

navigator对象

screen对象

history对象

NIO/AIO

1.网络编程模型

2.BIO/NIO/AIO

3.同步阻塞

4.同步非阻塞

5.异步阻塞

6.异步非阻塞

7.NIO与AIO基本操作

8.高性能IO设计模式

第三阶段 Java 主流框架

MyBatis

1.mybatis框架原理分析

2.mybatis框架入门程序编写

3.mybatis和hibernate的本质区别和应用场景

4.mybatis开发dao方法

5.SqlMapConfig配置文件讲解

6.输入映射-pojo包装类型的定义与实现

7.输出映射-resultType、resultMap

8.动态sql

9.订单商品数据模型分析

10.高级映射的使用

11.查询缓存之一级缓存、二级缓存

12.mybatis与spring整合

13. mybatis逆向工程自动生成代码

Spring/Spring MVC

1. springmvc架构介绍

2. springmvc入门程序

3. spring与mybatis整合

4. springmvc注解开发—商品修改功能分析

5. springmvc注解开发—RequestMapping注解

6. springmvc注解开发—Controller方法返回值

7. springmvc注解开发—springmvc参数绑定过程分析

8. springmvc注解开发—springmvc参数绑定实例讲解

9. springmvc与struts2的区别

10. springmvc异常处理

11. springmvc上传图片

12. springmvc实现json交互

13. springmvc对RESTful支持

14. springmvc拦截器

第四阶段 关系型数据库/MySQL/NoSQL

SQL基础

1.SQL及主流产品

2.MySQL的下载与安装(sinux/windows)

3.MySql的基本配置/配置文件

4.基本的SQL操作 DDL

5.基本的SQL操作 DML

6.基本的SQL操作 DCL

7.MySQL客户端工具

8.MySQL帮助文档

MySQL数据类型和运算符

1 数值类型

2 日期时间类型

3 字符串类型

4 CHAR 和 VARCHAR 类型

5 BINARY 和 VARBINARY 类型

6 ENUM 类型

7 SET 类型

8 算术运算符

9 比较运算符

10 逻辑运算符

11 位运算

12 运算符的优先级

MySQL函数

1 字符串函数

2 数值函数

3 日期和时间函数

4 流程函数

5 其他常用函数

MySQL存储引擎

1.MySQL支持的存储引擎及其特性

2.MyISAM

3.InnoDB

4.选择合适的存储引擎

选择合适的数据类型

1 CHAR 与 VARCHAR

2 TEXT 与 BLOB

3 浮点数与定点数

4 日期类型选择

字符集

1 字符集概述

2 Unicode字符集

3 汉字及一些常见字符集

4 选择合适的字符集

5 MySQL 支持的字符集

6 MySQL 字符集的设置 .

索引的设计和使用

1.什么是索引

2.索引的类型

3.索引的数据结构 BTree B+Tree Hash

4.索引的存储

5.MySQL索引

6.查看索引的使用情况

7.索引设计原则

视图/存储过程/函数/触发器

1. 什么是视图

2. 视图操作

3. 什么是存储过程

4. 存储过程操作

5. 什么是函数

6. 函数的相关操作

7. 触发器

事务控制/锁

1. 什么是事务

2. 事务控制

3. 分布式事务

4. 锁/表锁/行锁

5. InnoDB 行锁争用

6. InnoDB 的行锁模式及加锁方法7

7 InnoDB 行锁实现方式7

8 间隙锁(Next-Key 锁)

9 恢复和复制的需要,对 InnoDB 锁机制的影响

10 InnoDB 在不同隔离级别下的一致性读及锁的差异

11 表锁

12 死锁

SQL Mode和安全问题

1. 关于SQL Mode

2. MySQL中的SQL Mode

3. SQL Mode和迁移

4. SQL 注入

5. 开发过程中如何避免SQL注入

SQL优化

1.通过 show status 命令了解各种 SQL 的执行频率

2. 定位执行效率较低的 SQL 语句

3. 通过 EXPLAIN 分析低效 SQL 的执行计划

4. 确定问题并采取相应的优化措施

5. 索引问题

6.定期分析表和检查表

7.定期优化表

8.常用 SQL 的优化

MySQL数据库对象优化

1. 优化表的数据类型

2 散列化

3 逆规范化

4 使用中间表提高统计查询速度

5. 影响MySQL性能的重要参数

6. 磁盘I/O对MySQL性能的影响

7. 使用连接池

8. 减少MySQL连接次数

9. MySQL负载均衡

MySQL集群

MySQL管理和维护

MemCache

Redis

在Java项目中使用MemCache和Redis

第五阶段:操作系统/Linux、云架构

Linux安装与配置

1、安装Linux至硬盘

2、获取信息和搜索应用程序

3、进阶:修复受损的Grub

4、关于超级用户root

5、依赖发行版本的系统管理工具

6、关于硬件驱动程序

7、进阶:配置Grub

系统管理与目录管理

1、Shell基本命令

2、使用命令行补全和通配符

3、find命令、locate命令

4、查找特定程序:whereis

5、Linux文件系统的架构

6、移动、复制和删除

7、文件和目录的权限

8、文件类型与输入输出

9、vmware介绍与安装使用

10、网络管理、分区挂载

用户与用户组管理

1、软件包管理

2、磁盘管理

3、高级硬盘管理RAID和LVM

4、进阶:备份你的工作和系统

5、用户与用户组基础

6、管理、查看、切换用户

7、/etc/...文件

8、进程管理

9、linux VI编辑器,awk,cut,grep,sed,find,unique等

Shell编程

1、 SHELL变量

2、传递参数

3、数组与运算符

4、SHELL的各类命令

5、SHELL流程控制

6、SHELL函数

7、SHELL输入/输出重定向

8、SHELL文件包含

服务器配置

1、系统引导

2、管理守护进程

3、通过xinetd启动SSH服务

4、配置inetd

5、Tomcat安装与配置

6、MySql安装与配置

7、部署项目到Linux

第六阶段:Hadoop生态系统

Hadoop基础

1、大数据概论

2、 Google与Hadoop模块

3、Hadoop生态系统

4、Hadoop常用项目介绍

5、Hadoop环境安装配置

6、Hadoop安装模式

7、Hadoop配置文件

HDFS分布式文件系统

1、认识HDFS及其HDFS架构

2、Hadoop的RPC机制

3、HDFS的HA机制

4、HDFS的Federation机制

5、 Hadoop文件系统的访问

6、JavaAPI接口与维护HDFS

7、HDFS权限管理

8、hadoop伪分布式

Hadoop文件I/O详解

1、Hadoop文件的数据结构

2、 HDFS数据完整性

3、文件序列化

4、Hadoop的Writable类型

5、Hadoop支持的压缩格式

6、Hadoop中编码器和解码器

7、 gzip、LZO和Snappy比较

8、HDFS使用shell+Java API

MapReduce工作原理

1、MapReduce函数式编程概念

2、 MapReduce框架结构

3、MapReduce运行原理

4、Shuffle阶段和Sort阶段

5、任务的执行与作业调度器

6、自定义Hadoop调度器

7、 异步编程模型

8、YARN架构及其工作流程

MapReduce编程

1、WordCount案例分析

2、输入格式与输出格式

3、压缩格式与MapReduce优化

4、辅助类与Streaming接口

5、MapReduce二次排序

6、MapReduce中的Join算法

7、从MySQL读写数据

8、Hadoop系统调优

Hive数据仓库工具

1、Hive工作原理、类型及特点

2、Hive架构及其文件格式

3、Hive操作及Hive复合类型

4、Hive的JOIN详解

5、Hive优化策略

6、Hive内置操作符与函数

7、Hive用户自定义函数接口

8、Hive的权限控制

Hive深入解读

1 、安装部署Sqoop

2、Sqoop数据迁移

3、Sqoop使用案例

4、深入了解数据库导入

5、导出与事务

6、导出与SequenceFile

7、Azkaban执行工作流

Sqoop与Oozie

1 、安装部署Sqoop

2、Sqoop数据迁移

3、Sqoop使用案例

4、深入了解数据库导入

5、导出与事务

6、导出与SequenceFile

7、Azkaban执行工作流

Zookeeper详解

1、Zookeeper简介

2、Zookeeper的下载和部署

3、Zookeeper的配置与运行

4、Zookeeper的本地模式实例

5、Zookeeper的数据模型

6、Zookeeper命令行操作范例

7、storm在Zookeeper目录结构

NoSQL、HBase

1、HBase的特点

2、HBase访问接口

3、HBase存储结构与格式

4、HBase设计

5、关键算法和流程

6、HBase安装

7、HBase的SHELL操作

8、HBase集群搭建

第七阶段:Spark生态系统

Spark

1.什么是Spark

2.Spark大数据处理框架

3.Spark的特点与应用场景

4.Spark SQL原理和实践

5.Spark Streaming原理和实践

6.GraphX SparkR入门

7.Spark的监控和调优

Spark部署和运行

1.WordCount准备开发环境

2.MapReduce编程接口体系结构

3.MapReduce通信协议

4.导入Hadoop的JAR文件

5.MapReduce代码的实现

6.打包、部署和运行

7.打包成JAR文件

Spark程序开发

1、启动Spark Shell

2、加载text文件

3、RDD操作及其应用

4、RDD缓存

5、构建Eclipse开发环境

6、构建IntelliJ IDEA开发环境

7、创建SparkContext对象

8、编写编译并提交应用程序

Spark编程模型

1、RDD特征与依赖

2、集合(数组)创建RDD

3、存储创建RDD

4、RDD转换 执行 控制操作

5、广播变量

6、累加器

作业执行解析

1、Spark组件

2、RDD视图与DAG图

3、基于Standalone模式的Spark架构

4、基于YARN模式的Spark架构

5、作业事件流和调度分析

6、构建应用程序运行时环境

7、应用程序转换成DAG

Spark SQL与DataFrame

1、Spark SQL架构特性

2、DataFrame和RDD的区别

3、创建操作DataFrame

4、RDD转化为DataFrame

5、加载保存操作与Hive表

6、Parquet文件JSON数据集

7、分布式的SQL Engine

8、性能调优 数据类型

深入Spark Streaming

1、Spark Streaming工作原理

2、DStream编程模型

3、Input DStream

4、DStream转换 状态 输出

5、优化运行时间及内存使用

6、文件输入源

7、基于Receiver的输入源

8、输出操作

Spark MLlib与机器学习

1、机器学习分类级算法

2、Spark MLlib库

3、MLlib数据类型

4、MLlib的算法库与实例

5、ML库主要概念

6、算法库与实例

GraphX与SparkR

1、Spark GraphX架构

2、GraphX编程与常用图算法

3、GraphX应用场景

4、SparkR的工作原理

5、R语言与其他语言的通信

6、SparkR的运行与应用

7、R的DataFrame操作方法

8、SparkR的DataFrame

Scala编程开发

1、Scala语法基础

2、idea工具安装

3、maven工具配置

4、条件结构、循环、高级for循环

5、数组、映射、元组

6、类、样例类、对象、伴生对象

7、高阶函数与函数式编程

Scala进阶

1、 柯里化、闭包

2、模式匹配、偏函数

3、类型参数

4、协变与逆变

5、隐式转换、隐式参数、隐式值

6、Actor机制

7、高级项目案例

Python编程

1、Python编程介绍

2、Python的基本语法

3、Python开发环境搭建

4、Pyhton开发Spark应用程序

第八阶段:Storm生态系统

storm简介与基本知识

1、storm的诞生诞生与成长

2、storm的优势与应用

3、storm基本知识概念和配置

4、序列化与容错机制

5、可靠性机制—保证消息处理

6、storm开发环境与生产环境

7、storm拓扑的并行度

8、storm命令行客户端

Storm拓扑与组件详解

1、流分组和拓扑运行

2、拓扑的常见模式

3、本地模式与stormsub的对比

4、 使用非jvm语言操作storm

5、hook、组件基本接口

6、基本抽象类

7、事务接口

8、组件之间的相互关系

spout详解 与bolt详解

1、spout获取数据的方式

2、常用的spout

3、学习编写spout类

4、bolt概述

5、可靠的与不可靠的bolt

6、复合流与复合anchoring

7、 使用其他语言定义bolt

8、学习编写bolt类

storm安装与集群搭建

1、storm集群安装步骤与准备

2、本地模式storm配置命令

3、配置hosts文件、安装jdk

4、zookeeper集群的搭建

5、部署节点

6、storm集群的搭建

7、zookeeper应用案例

8、Hadoop高可用集群搭建

Kafka

1、Kafka介绍和安装

2、整合Flume

3、Kafka API

4、Kafka底层实现原理

5、Kafka的消息处理机制

6、数据传输的事务定义

7、Kafka的存储策略

Flume

1、Flume介绍和安装

2、Flume Source讲解

3、Flume Channel讲解

4、Flume Sink讲解

5、flume部署种类、流配置

6、单一代理、多代理说明

7、flume selector相关配置

Redis

1、Redis介绍和安装、配置

2、Redis数据类型

3、Redis键、字符串、哈希

4、Redis列表与集合

5、Redis事务和脚本

6、Redis数据备份与恢复

7、Redis的SHELL操作

oracle和sqlserver之间能用物化视图吗

sqlserver 和oracle是不可以直接相互连接的.

必须使用第三驱动来建立连接,通常是odbc桥连接来处理.

使用odbc后,理论上说,任意数据库(非nosql)都可以相互连接访问查询.

大数据常用哪些数据库

通常数据库分为关系型数据库和非关系型数据库,关系型数据库的优势到现在也是无可替代的,比如MySQL、SQL Server、Oracle、DB2、SyBase、Informix、PostgreSQL以及比较小型的Access等等数据库,这些数据库支持复杂的SQL操作和事务机制,适合小量数据读写场景;但是到了大数据时代,人们更多的数据和物联网加入的数据已经超出了关系数据库的承载范围。

大数据时代初期,随着数据请求并发量大不断增大,一般都是采用的集群同步数据的方式处理,就是将数据库分成了很多的小库,每个数据库的数据内容是不变的,都是保存了源数据库的数据副本,通过同步或者异步方式保证数据的一致性,每个库设定特定的读写方式,比如主数据库负责写操作,从数据库是负责读操作,等等根据业务复杂程度以此类推,将业务在物理层面上进行了分离,但是这种方式依旧存在一定的负载压力的问题,企业数据在不断的扩增中,后面就采用分库分表的方式解决,对读写负载进行分离,但是这种实现依旧存在不足,且需要不断进行数据库服务器扩容。

NoSQL数据库大致分为5种类型

1、列族数据库:BigTable、HBase、Cassandra、Amazon SimpleDB、HadoopDB等,下面简单介绍几个

(1)Cassandra:Cassandra是一个列存储数据库,支持跨数据中心的数据复制。它的数据模型提供列索引,log-structured修改,支持反规范化,实体化视图和嵌入超高速缓存。

(2)HBase:Apache Hbase源于Google的Bigtable,是一个开源、分布式、面向列存储的模型。在Hadoop和HDFS之上提供了像Bigtable一样的功能。

(3)Amazon SimpleDB:Amazon SimpleDB是一个非关系型数据存储,它卸下数据库管理的工作。开发者使用Web服务请求存储和查询数据项

(4)Apache Accumulo:Apache Accumulo的有序的、分布式键值数据存储,基于Google的BigTable设计,建立在Apache Hadoop、Zookeeper和Thrift技术之上。

(5)Hypertable:Hypertable是一个开源、可扩展的数据库,模仿Bigtable,支持分片。

(6)Azure Tables:Windows Azure Table Storage Service为要求大量非结构化数据存储的应用提供NoSQL性能。表能够自动扩展到TB级别,能通过REST和Managed API访问。

2、键值数据库:Redis、SimpleDB、Scalaris、Memcached等,下面简单介绍几个

(1)Riak:Riak是一个开源,分布式键值数据库,支持数据复制和容错。(2)Redis:Redis是一个开源的键值存储。支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限。

(3)Dynamo:Dynamo是一个键值分布式数据存储。它直接由亚马逊Dynamo数据库实现;在亚马逊S3产品中使用。

(4)Oracle NoSQL Database:来自Oracle的键值NoSQL数据库。它支持事务ACID(原子性、一致性、持久性和独立性)和JSON。

(5)Oracle NoSQL Database:具备数据备份和分布式键值存储系统。

(6)Voldemort:具备数据备份和分布式键值存储系统。

(7)Aerospike:Aerospike数据库是一个键值存储,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性。

3、文档数据库:MongoDB、CouchDB、Perservere、Terrastore、RavenDB等,下面简单介绍几个

(1)MongoDB:开源、面向文档,也是当下最人气的NoSQL数据库。

(2)CounchDB:Apache CounchDB是一个使用JSON的文档数据库,使用Javascript做MapReduce查询,以及一个使用HTTP的API。

(3)Couchbase:NoSQL文档数据库基于JSON模型。

(4)RavenDB:RavenDB是一个基于.NET语言的面向文档数据库。

(5)MarkLogic:MarkLogic NoSQL数据库用来存储基于XML和以文档为中心的信息,支持灵活的模式。

4、图数据库:Neo4J、InfoGrid、OrientDB、GraphDB,下面简单介绍几个

(1)Neo4j:Neo4j是一个图数据库;支持ACID事务(原子性、独立性、持久性和一致性)。

(2)InfiniteGraph:一个图数据库用来维持和遍历对象间的关系,支持分布式数据存储。

(3)AllegroGraph:AllegroGraph是结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS++和Prolog推理。

5、内存数据网格:Hazelcast、Oracle Coherence、Terracotta BigMemorry、GemFire、Infinispan、GridGain、GigaSpaces,下面简单介绍几个

(1)Hazelcast:Hazelcast CE是一个开源数据分布平台,它允许开发者在数据库集群之上共享和分割数据。

(2)Oracle Coherence:Oracle的内存数据网格解决方案提供了常用数据的快速访问能力,一致性支持事务处理能力和数据的动态划分。

(3)Terracotta BigMemory:来自Terracotta的分布式内存管理解决方案。这项产品包括一个Ehcache界面、Terracotta管理控制台和BigMemory-Hadoop连接器。

(4)GemFire:Vmware vFabric GemFire是一个分布式数据管理平台,也是一个分布式的数据网格平台,支持内存数据管理、复制、划分、数据识别路由和连续查询。

(5)Infinispan:Infinispan是一个基于Java的开源键值NoSQL数据存储,和分布式数据节点平台,支持事务,peer-to-peer 及client/server 架构。

(6)GridGain:分布式、面向对象、基于内存、SQL+NoSQL键值数据库。支持ACID事务。

(7)GigaSpaces:GigaSpaces内存数据网格能够充当应用的记录系统,并支持各种各样的高速缓存场景。

常见NoSQL数据库的应用场景是怎么样的

文档数据库

源起:受Lotus Notes启发。

数据模型:包含了key-value的文档集合

例子:CouchDB, MongoDB

优点:数据模型自然,编程友好,快速开发,web友好,CRUD。

图数据库

源起: 欧拉和图理论。

数据模型:节点和关系,也可处理键值对。

例子:AllegroGraph, InfoGrid, Neo4j

优点:解决复杂的图问题。

关系数据库

源起: E. F. Codd 在A Relational Model of Data for Large Shared Data Banks提出的

数据模型:各种关系

例子:VoltDB, Clustrix, MySQL

优点:高性能、可扩展的OLTP,支持SQL,物化视图,支持事务,编程友好。

对象数据库

源起:图数据库研究

数据模型:对象

例子:Objectivity, Gemstone

优点:复杂对象模型,快速键值访问,键功能访问,以及图数据库的优点。

Key-Value数据库

源起:Amazon的论文 Dynamo 和 Distributed HashTables。

数据模型:键值对

例子:Membase, Riak

优点:处理大量数据,快速处理大量读写请求。编程友好。

BigTable类型数据库

源起:Google的论文 BigTable。

数据模型:列簇,每一行在理论上都是不同的

例子:HBase, Hypertable, Cassandra

优点:处理大量数据,应对极高写负载,高可用,支持跨数据中心, MapReduce。

数据结构服务

源起: ?

数据模型:字典操作,lists, sets和字符串值

例子:Redis

优点:不同于以前的任何数据库

网格数据库

源起:数据网格和元组空间研究。

数据模型:基于空间的架构

例子:GigaSpaces, Coherence

优点:适于事务处理的高性能和高扩展性


分享文章:nosql视图,nosql和图数据库
新闻来源:http://pwwzsj.com/article/dscohjo.html