什么是pig ?

  • Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该编译器会把请求自动优化并处理MapReduce运算,这样使Pig易于编程,不用担心效率。自动对集群分配和回收。
  • Pig可加载数据、表达转换数据以及存储最终结果。Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
  • Pig与Hive相比。Hive更适合于数据仓库的任务。Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的 应用程序。Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。
  • Hive与SQL相似促使 其成为Hadoop与其他BI工具结合的理想交集。

pig安装

  • 解压:
    加执行权限:chmod u+x pig-0.13.0.tar.gz
    tar -zxvf pig-0.13.0.tar.gz
    重命名:mv pig-0.13.0 pig0.13
  • 环境变量配置(几乎每安装一个都需配置/etc/profile)
  • vi /etc/profile
    加入
    export PIG_HOME=/usr/local/pig0.13
    export PATH=$PIG_HOME/conf:$PIG_HOME/bin:$PATH
  • 保存退出,记得source一下,使其文件生效
  • 使用命令 pig -help看看有没有安装成功

启动pig

  • pig运行分为local模式和mapReduce模式,这里采用mapReduce模式。
  • 运行方式:
    1. Grunt Shell方式:输入pig -x mapreduce进入
    2. 脚本文件方式:输入pig -x mapreduce script.pig运行脚本
    3. 嵌入式程序:首先编译:javac -cp pig-0.13.0-h1.jar mapreduce.java 然后执行:java -cp pig-0.13.0-h1.jar mapreduce
文章目录
  1. 1. 什么是pig ?
  2. 2. pig安装
  3. 3. 启动pig

Sides

IT技术分享博客