本文共 2233 字,大约阅读时间需要 7 分钟。
MaxCompute与TableStore的数据生态连通性优化
随着阿里云大数据平台MaxCompute的不断发展,其在处理内部与外部数据方面展现出强大的计算能力。特别是在非结构化数据处理方面,MaxCompute 2.0计算框架的上线为用户提供了更广阔的数据接入可能性。在TableStore(OTS)作为阿里云分布式NoSQL数据存储服务的背景下,MaxCompute与其之间的数据链路连接显得尤为重要。本文将详细介绍如何实现MaxCompute对TableStore数据的读取与计算,以及数据写入的实现方法。
1.1 使用前提与假设MaxCompute 2.0非结构化功能的使用需要先申请试用。在执行SQL查询时需设置以下参数:set odps.task.major.version=2dot0_demo_flighting;set odps.sql.planner.mode=lot;set odps.sql.ddl.odps2=true;set odps.sql.preparse.odps2=lot;
1.2 TableStore基础概念与网络连通性MaxCompute与TableStore之间需保持网络连通。建议使用TableStore的私网地址(以ots-internal.aliyuncs.com结尾)进行访问,例如tablestore://odps-ots-dev.cn-shanghai.ots-internal.aliyuncs.com。
1.3 TableStore与MaxCompute类型对应两者类型系统对应关系如下:| MaxCompute Type | TableStore Type ||-----------------|----------------|| STRING | STRING || BIGINT | INT || DOUBLE | DOUBLE || BINARY* | BLOB |
1.4 使用STS/RAM访问TableStore数据MaxCompute结合RAM和STS授权机制进行安全访问。需在RAM中创建角色AliyunODPSDefaultRole,并设置相应的策略。
1.5 创建External Table通过CREATE EXTERNAL TABLE将MaxCompute与TableStore进行连接。示例:CREATE EXTERNAL TABLE IF NOT EXISTS ots_table_external(odps_orderkey bigint, odps_orderdate string, ...)STORED BY 'com.aliyun.odps.TableStoreStorageHandler'WITH SERDEPROPERTIES ('tablestore.columns.mapping'=':o_orderkey, :o_orderdate, o_custkey, o_orderstatus,o_totalprice','tablestore.table.name'='ots_tpch_orders')LOCATION 'tablestore://odps-ots-dev.cn-shanghai.ots-internal.aliyuncs.com';
1.6 通过External Table访问数据在创建External Table后,可通过MaxCompute SQL直接访问TableStore数据。例如:SELECT odps_orderkey, odps_orderdate, SUM(odps_totalprice) AS sum_totalFROM ots_table_externalWHERE odps_orderkey > 5000 AND ...;
2.1 INSERT OVERWRITE实现使用INSERT OVERWRITE将MaxCompute计算结果写入TableStore。示例:INSERT OVERWRITE TABLE ots_table_externalSELECT odps_orderkey, odps_orderdate, odps_custkey, CONCAT(odps_custkey, 'SHIPPED'), CEIL(odps_totalprice)FROM internal_orders;
3.1 MaxCompute与TableStore对应关系MaxCompute外表与TableStore数据表呈N:1关系,可映射不同属性列子集或特定范围。
3.2 并发度控制MaxCompute默认并发度与TableStore分区数目一致。针对大规模写入,可提前与TableStore服务沟通,确保网络吞吐量。
3.3 网络连通性MaxCompute与TableStore间需保持稳定网络连接,推荐使用私网地址进行访问。
转载地址:http://clyfk.baihongyu.com/