让数据从PostgreSQL流动到Greenplum

  • 时间:
  • 浏览:0

2.并行导入性能高于常规数据导入导出措施 充分利用每个数据节点的CPU、内存、网络等硬件资源,举个例子对于680G的数据,大慨20亿行文本数据需用导入到3原来segment的Greenplum集群只需用大慨35分钟。

本次分享的主要内容

一、数据上云面对的难题

二、除理方案

三、方案优势

一、数据上云面对的难题

现在亲戚亲戚其他人在使用云数据库的并且 ,或者会遇到的原来很大的难题就说 我我:咋样将海量的数据迁移到云端上去。当然在数据迁移的过程中还有或者会遇到网络难题,当网络时好时坏,或者数据上传过程中网络总爱断掉,这麼几条G或者几两个G的任务就挂掉了,需用重新再导入一遍。还有原来难题就说 我我使用阿里云的各个数据产品时,咋样在那此数据产品之间进行数据互通。

总体而言,使用OSS的成本是相当低的。

首先,OSS是阿里云上非常廉价的存储服务,它可不还都可以和云上所有的数据产品进行打通,或者其收费非常便宜,按照存储量和请求次数进行收费,具体的收费规则在阿里云官网上亲戚亲戚其他人可不还都可以就看。

三、方案优势 使用Greenplum上的OSS插件的方案具有好多好多 优势。

6.工具现在已开源到GitHubhttps://github.com/aliyun/rds_dbsync

Greenplum上的OSS插件有好多好多 丰富的形态。

二、除理方案

面对那此难题,阿里云也为亲戚亲戚其他人提供了其他除理方案和工具。

并且 在单节点的RDS后边或者会遇到难题就说 我我:购买实例的存储是有限制的。一般而言存储就说 我我几条T,或者其他包含历史数据的表会非常庞大,处于了絮状的存储空间,或者对于那此表格查询的次数往往比较少,也就说 我我属于常说的冷数据。面对原来的场景,可不还都可以使用OSS对其进行存储,以此将那此冷数据原来处于的絮状的存储空间释放掉,当需用的并且 再将其导入到数据库中。嘴笨 当数据表存储到OSS后边时,也可不还都可以非常容易地访问到,只不过性能稍微弱其他,花费的时间稍微长其他。

3.各数据产品间灵活的交换数据

4.pgsql2pgsql
可不还都可以支持不落地数据迁移,pg、ppas大于9.4的版本可不还都可以支持基于逻辑qq克隆好友 的增量迁移。

OSS插件在未来总要支持更多的形态,好多好多 的形态总要根据阿里云客户在实际使用中巨棺来的,未来阿里云OSS或者对那此形态进行更好地支持。

对于整个除理方案而言,每个工具都具有其他特点。

Greenplum或者支持的其他形态

1.使用OSS OSS的使用成本比较低,或者可不还都可以跨各数据库产品进行支持,可不还都可以跨可用区进行数据同步。对于冷数据转存到OSS,依然可不还都可以当做表访问,只不过性能表现略微降低。

整个方案总要以OSS为存储中心,交易型的业务都可不还都可以使用OSS作为数据的后边介质进行导入导出。

接下来分享一下Greenplum上的OSS插件的工作原理,亲戚亲戚其他人都知道原来的架构主要由原来主节点和多个计算节点组成。读写的过程中完整版让segment进行计算,充分利用segment后边的计算资源、内存和网络。

以下内容根据演讲PPT以及现场分享分类整理而成。

5.mysql2pgsql 可不还都可以支持不落地数据迁移,支持多表并发,支持基于条件的增量。