电影推荐系统功能包括票房统计,评分推荐,电影类型推荐。
项目流程:首先获取用户id,删除用户之前存在的推荐结果,装载样本评分数据(不同用户对不同电影的评分数据:userid、 movieid、rating、timestamp )。然后装载电影信息数据(从movieinfo表中取出movieid、moviename、typelist)。
注:样本评分数据和电影信息数据以.dat文件的形式被传入HDFS中。
将样本评分数据切分成3部分,60%用于训练(训练集)、20%用于校验(校验集)、20%用于测试(测试集)
训练不同参数下的模型,并在校验集中校验,找出最佳模型。
设置参数(隐语义因子的个数、ALS的正则化参数、迭代次数),将设置的参数和训练集作为参数传入到spark MLlib库的ALS()函数中,得到推荐模型,调整参数会得到多个不同的模型。
校验方法:
将校验集装入模型中,得到用户对电影的预测评分,计算预测评分和实际评分的均方根误差,找出多个模型中均方根误差最小的模型作为最佳模型。
用最佳模型预测测试集的评分,并计算预测评分和实际评分的均方根误差,改进最佳模型。
用最佳模型预测某用户对电影信息数据集中的所有电影的评分,选出评分最高的前十部电影。将推荐结果存入数据库recommendresult表中
————————————————
版权声明:本文为CSDN博主「塞奈」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_44459219/article/details/118416465