MOMOJI.故事接龙·让我们一起讲故事,做个有故事的人

既然hadoop streaming要求其map reduce程序的实现支持stdio,那么可以用这个特性来进行本地的测试,利用管道命令即可;

比如测试step1,可以使用命令:

cat testdata/ratings_small.csv | python cfmr_itembased_step1_normalization_m.py |sort -k 1 |python cfmr_itembased_step1_normalization_r.py 

注意管道中的sort一步,这是必需的,这模拟了hadoop mapreduce机制中,在map过程中的排序过程,需要用这个命令来保证map的输出是基于key排序的;

by 匿名 @ 2020-03-07 11:35:38
全文模式 复制地址