了解

  • apache Mahout主要是建立可伸缩的机器学习算法。针对大规模的数据。
  • apache Mahout的算法运行在hadoop下,通过mapreduce实现。也可不依赖hadoop,即非分布式算法。
  • 该项目主要包括以下五部分:
    — 频繁模式挖掘:挖掘数据中频繁出现的项集
    — 聚类:将文本、文档之类的数据分成局部相关的组
    — 分类:利用已存在的分类文档训练分类器,对未分类的文档进行分类
    — 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物
    — 频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目
    — 目前已经有很多技术的算法了

安装Mahout

  • Mahout可在本地模式下运行,也可运行在hadoop下,此处运行在hadoop下。到mahout下载
  • 解压:
    — 加权限:chmod u+x mahout-distribution-0.9.tar.gz
    — tar -zxvf mahout-distribution-0.9.tar.gz
  • 配置环境变量
    — 使用命令 vi /etc/profile
    — export MAHOUT_HOME=/usr/local/mahout0.9
    — export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
    — export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
    — 保存退出,source一下。使用mahout -help看看是否安装成功
文章目录
  1. 1. 了解
  2. 2. 安装Mahout

Sides

IT技术分享博客