阿里云國際站經(jīng)銷商,主營阿里云,騰訊云,華為云,亞馬遜aws,谷歌云gcp,微軟云az,免費開戶,代充值優(yōu)惠大,聯(lián)系客服飛機@jkkddd
Kafka數(shù)據(jù)遷移MaxCompute最佳實踐
步驟一:準(zhǔn)備Kafka數(shù)據(jù)您需要在Kafka集群創(chuàng)建測試數(shù)據(jù)。為保證您可以順利登錄EMR集群Header主機,以及保證MaxCompute和DataWorks可以順利和EMR集群Header主機通信,請您首先配置EMR集群Header主機安全組,放行TCP 22及TCP 9092端口。
登錄EMR集群Header主機地址。
進入EMR Hadoop控制臺。
在頂部導(dǎo)航欄,單擊集群管理。
在顯示的頁面,找到您需要創(chuàng)建測試數(shù)據(jù)的集群,進入集群詳情頁。
在集群詳情頁面,單擊主機列表,確認EMR集群Header主機地址,并通過SSH連接遠程登錄。
創(chuàng)建測試Topic。
執(zhí)行如下命令創(chuàng)建測試所使用的Topic testkafka。
寫入測試數(shù)據(jù)。
執(zhí)行如下命令,可以模擬生產(chǎn)者向Topic testkafka中寫入數(shù)據(jù)。由于Kafka用于處理流式數(shù)據(jù),您可以持續(xù)不斷的向其中寫入數(shù)據(jù)。為保證測試結(jié)果,建議寫入10條以上的數(shù)據(jù)。
步驟二:在DataWorks上創(chuàng)建目標(biāo)表
在DataWorks上創(chuàng)建目標(biāo)表用以接收Kafka數(shù)據(jù)。
進入數(shù)據(jù)開發(fā)頁面。
登錄DataWorks控制臺。
在左側(cè)導(dǎo)航欄,單擊工作空間列表。
單擊相應(yīng)工作空間后的數(shù)據(jù)開發(fā)。
右鍵單擊業(yè)務(wù)流程,選擇新建表 > MaxCompute > 表。
在彈出的新建表對話框中,填寫表名稱,并單擊新建。
步驟三:同步數(shù)據(jù)
新建獨享數(shù)據(jù)集成資源組。
由于當(dāng)前DataWorks的默認資源組無法完美支持Kafka插件,您需要使用獨享數(shù)據(jù)集成資源組完成數(shù)據(jù)同步。詳情請參見新增和使用獨享數(shù)據(jù)集成資源組。
新建數(shù)據(jù)集成節(jié)點。
進入數(shù)據(jù)開發(fā)頁面,右鍵單擊指定業(yè)務(wù)流程,選擇新建節(jié)點 > 數(shù)據(jù)集成 > 離線同步。
在新建節(jié)點對話框中,輸入節(jié)點名稱,并單擊確認。
在頂部菜單欄上,單擊轉(zhuǎn)化腳本圖標(biāo)。
在腳本模式下,單擊頂部菜單欄上的**圖標(biāo)。
后續(xù)步驟
您可以新建一個數(shù)據(jù)開發(fā)任務(wù)運行SQL語句,查看當(dāng)前表中是否已存在從云消息隊列 Kafka 版同步過來的數(shù)據(jù)。本文以select * from testkafka為例,具體步驟如下:
登錄DataWorks控制臺,單擊左側(cè)導(dǎo)航欄的數(shù)據(jù)建模與開發(fā) > 數(shù)據(jù)開發(fā),在下拉框中選擇對應(yīng)工作空間后單擊進入數(shù)據(jù)開發(fā)。
在臨時查詢面板,右鍵單擊臨時查詢,選擇新建節(jié)點 > ODPS SQL。
在新建節(jié)點對話框中,輸入名稱。
心靈雞湯:
標(biāo)題:阿里云代理商賬號購買,阿里云國際站
地址:http://www.nickbaillie.com/kfxw/64160.html