MOMOJI.故事接龙·让我们一起讲故事,做个有故事的人

随手记

~item-based 余弦相似度算法~
{ 任一段落可 [ 切到该章节 ] 进行续写接龙 }

~随手记~

随手随记

随手记 by 飞~甜 @ 2019-06-13 16:57:04

切到该章 收藏 从此续写

~tech notes~

技术笔记开篇.

tech notes by 佚名 @ 2020-03-06 21:36:45

切到该章 收藏 从此续写

~hadoop mapreduce by streaming with python~

以经典的推荐算法中的协同过滤算法为例,看一下如何在hadoop的mapreduce机制上实现.

hadoop mapreduce by streaming with python by 佚名 @ 2020-03-06 21:40:45

切到该章 收藏 从此续写

~算法细分~

user-based和item-based

其user-item-rating数据具有共同的特点:量大/稀疏;

步骤相同:

1.构造user-item-rating矩阵;

2.计算相似度;

3.找top n,计算矩阵中未知的rating;

其中核心问题是计算user或者item的最近邻或者相似度;

相似度算法包括:pearson, cosin, ...

算法细分 by 佚名 @ 2020-03-06 22:56:39

切到该章 收藏 从此续写

~hadoop streaming~

hadoop streaming实现的目标是:可以让任何语言编写的mapreduce程序都能在hadoop上运行;前提是这些map reduce程序遵循标准输入输出(stdin/stdout).

这简直是python党的福音,python有丰富的数据处理包,numpy/pandas/...,加之其动态脚本的特性,可以灵活的修改,免除类似java各种依赖编译之苦...

hadoop streaming by 佚名 @ 2020-03-06 23:05:18

切到该章 收藏 从此续写

~item-based 余弦相似度算法~

以item-based算法为例,做一个余弦相似度的mapreduce的python实现;

为何选cosin呢?因为这个实现起来简单,也好理解:D

item-based 余弦相似度算法 by 佚名 @ 2020-03-06 23:07:32

切到该章 收藏 从此续写

last by 匿名 @ 2020-03-06 23:07:32

章节模式 复制地址