既然hadoop streaming要求其map reduce程序的实现支持stdio,那么可以用这个特性来进行本地的测试,利用管道命令即可;
比如测试step1,可以使用命令:
cat testdata/ratings_small.csv | python cfmr_itembased_step1_normalization_m.py |sort -k 1 |python cfmr_itembased_step1_normalization_r.py
注意管道中的sort一步,这是必需的,这模拟了hadoop mapreduce机制中,在map过程中的排序过程,需要用这个命令来保证map的输出是基于key排序的;