~随手记~
随手随记
~tech notes~
技术笔记开篇.
tech notes by 佚名 @ 2020-03-06 21:36:45
切到该章
收藏
从此续写
~hadoop mapreduce by streaming with python~
以经典的推荐算法中的协同过滤算法为例,看一下如何在hadoop的mapreduce机制上实现.
hadoop mapreduce by streaming with python by 佚名 @ 2020-03-06 21:40:45
切到该章
收藏
从此续写
~算法细分~
user-based和item-based
其user-item-rating数据具有共同的特点:量大/稀疏;
步骤相同:
1.构造user-item-rating矩阵;
2.计算相似度;
3.找top n,计算矩阵中未知的rating;
其中核心问题是计算user或者item的最近邻或者相似度;
相似度算法包括:pearson, cosin, ...
~hadoop streaming~
hadoop streaming实现的目标是:可以让任何语言编写的mapreduce程序都能在hadoop上运行;前提是这些map reduce程序遵循标准输入输出(stdin/stdout).
这简直是python党的福音,python有丰富的数据处理包,numpy/pandas/...,加之其动态脚本的特性,可以灵活的修改,免除类似java各种依赖编译之苦...
hadoop streaming by 佚名 @ 2020-03-06 23:05:18
切到该章
收藏
从此续写
last by 匿名 @ 2020-03-06 23:05:18
章节模式
复制地址