teragen:生成数据,teragen会按行生成数据,每行100字节, 生成100M数据,需要行数100*1024*1024*1024/100 ,生成的数据存入/teradata/100M-input hadoop jar /usr/hadoop-parafs/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar teragen -Dmapred.map.tasks=10 1048576 /teradata/100M-input 查看数据是否已生成 hadoop fs -ls /teradata terasort:将teragen生成的数据/teradata/100M-input进行排序,将排序结果存入 /teradata/100M-output 生成100M数据,需要行数100*1024*1024*1024/100= hadoop jar /usr/hadoop-parafs/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar terasort -Dmapred.reduce.tasks=5 /teradata/100M-input /teradata/100M-output teravalidate:对terasort的排序结果进行验证,验证结果存入到/teradata/100M-validate hadoop jar /usr/hadoop-parafs/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar teravalidate /teradata/100M-output /teradata/100M-validate