Presentation is loading. Please wait.

Presentation is loading. Please wait.

Homework 1(上交时间:10月14号) 倒排索引.

Similar presentations


Presentation on theme: "Homework 1(上交时间:10月14号) 倒排索引."— Presentation transcript:

1 Homework 1(上交时间:10月14号) 倒排索引

2 实现目标 通过Hadoop提供的API接口,对所 给文件建立一个倒排索引,使能够 根据单词对文件进行检索

3 实现要求 文件内容为英文,存储在本地文件 中。 建立倒排索引的程序运行完时, Reduce过程的输出形式为。
<单词, <文件>:词频,…..> <“mapreduce”, 0.txt:1, 2.txt:2>

4 Map 过程 首先使用默认的TextInputFormat类对输 入文件进行处理,得到文本中的偏移量 及其类容。
Map过程对输入的<key, value>进行分析, 得到需要的信息,单词,文件名,词频。 由于<key, value>对只能有两个只,则需 根据情况将其中的两个合并,例如将单 词与文件名合并。

5 Combine 过程 经过map方法后,Combine将key相同的 value相加,得到一个单词在文件中的词 频。
由于具有相同单词的记录应该被同一个 reduce处理,所以这里应该修改key为 单词,value为词频与文件的组合

6 Reduce 过程 经过上述两个过程后, reduce过程只需 将相同key值的value组合成所需的输出 格式即可。


Download ppt "Homework 1(上交时间:10月14号) 倒排索引."

Similar presentations


Ads by Google