纸上谈兵: 哈希表 (hash table)
- 时间:
- 浏览:1
- 来源:大发时时彩官网_去哪玩大发时时彩_哪里可以玩大发时时彩
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
HASH
哈希表(hash table)是从1个 多多集合A到1个 多多多集合B的映射(mapping)。映射是有一种对应关系,否则集合A的某个元素这样 对应集合B中的1个 多多元素。但反过来,集合B中的1个 多多元素因为对应多个集合A中的元素。因为B中的元素这样 对应A中的1个 多多元素,1个 多多多的映射被称为一一映射。1个 多多多的对应关系在现实生活中很常见,比如:
A -> B
人 -> 身份证号
日期 -> 星座
后面 1个 多多映射中,人 -> 身份证号是一一映射的关系。在哈希表中,上述对应过程称为hashing。A中元素a对应B中元素b,a被称为键值(key),b被称为a的hash值(hash value)。
韦小宝的hash值
映射在数学上要花费1个 多多函数f(x):A->B。比如 f(x) = 3x + 2。哈希表的核心是1个 多多哈希函数(hash function),相似 函数规定了集合A中的元素要怎样对应到集合B中的元素。比如:
A: 三位整数 hash(x) = x % 10 B: 一位整数
104 4
876 6
192 2
上述对应中,哈希函数表示为hash(x) = x % 10。也相似 我说,给1个 多多三位数,朋友取它的最后一位作为该三位数的hash值。
哈希表在计算机科学中应用广泛。比如:
Ethernet中的FCS:参看小喇叭开始英文英文广播 (以太网与WiFi协议)
IP协议中的checksum:参看我尽力 (IP协议详解)
git中的hash值:参看版本管理三国志
上述应用中,朋友用1个 多多hash值来代表键值。比如在git中,文件内容为键值,并用SHA算法作为hash function,将文件内容对应为固定长度的字符串(hash值)。因为文件内容所处变化,这样 所对应的字符串就会所处变化。git通过比较较短的hash值,就能也能知道文件内容算不算 所处变动。
再比如计算机的登陆密码,一般是一串字符。然而,为了安全起见,计算机不想直接保存该字符串,相似 我保存该字符串的hash值(使用MD5、SHA因为相似 算法作为hash函数)。当用户下次登陆的只是,输入密码字符串。因为该密码字符串的hash值与保存的hash值一致,这样 就认为用户输入了正确的密码。1个 多多多,就算黑客闯入了数据库中的密码记录,他能看一遍的也相似 我密码的hash值。后面 所使用的hash函数有很好的单向性:很难从hash值去推测键值。否则,黑客无法获知用户的密码。
(只是有报道多家网站用户密码泄露的时间,相似 我因为哪几个网站存储明文密码,而都不 hash值,见多家网站卷入CSDN泄密事件 明文密码成争议焦点)
注意,hash若果求从A到B的对应为1个 多多映射,它并这样 限定该对应关系为一一映射。否则会1个 多多多多的因为:1个 多多不同的键值对应同1个 多多hash值。相似 具体情况叫做hash碰撞(hash collision)。比如网络协议中的checksum就因为冒出相似 具体情况,即所要校验的内容与原文好的反义词同,但与原文生成的checksum(hash值)相同。再比如,MD5算法常用来计算密码的hash值。因为有实验表明,MD5算法有因为所处碰撞,也相似 我不同的明文密码生成相同的hash值,这将给系统带来很大的安全漏洞。(参考hash collision)
HASH与搜索
hash表被广泛的用于搜索。设定集合A为搜索对象,集合B为存储位置,利用hash函数将搜索对象与存储位置对应起来。1个 多多多,朋友就能也能通过一次hash,将对象所在位置找到。有一种常见的具体情况是,将集合B设定在数组下标。因为数组能也能根据数组下标进行随机存取(random access,算法复杂化度为1),相似 搜索操作将取决于hash函数的复杂化程度。
比如朋友以人名(字符串)为键值,以数组下标为hash值。每个数组元素中存储1个 多多多指针,指向记录 (大家名和电话号码)。
下面是1个 多多简单的hash函数:
#define HASHSIZE 11507/* By Vamei * hash function */ int hash(char *p) { int value=0; while((*p) != '\0') { value = value + (int) (*p); // convert char to int, and sum p++; } return (value % HASHSIZE); // won's exceed HASHSIZE }
hash value of "Vamei": 498
hash value of "Obama": 4150
朋友能也能建立1个 多多HASHSIZE大小的数组records,用于储存记录。HASHSIZE被选着为质数,以便hash值能更加均匀的分布。在搜索"Vamei"的记录时,能也能经过hash,得到hash值498,再直接读取records[498],就能也能读取记录了。
(666666是Obama的电话号码,111111是Vamei的电话号码。纯属杜撰,请勿当真)
hash搜索
因为不采用hash,而相似 我在1个 多多数组中搜索励志的话 ,朋友也能 依次访问每个记录,直到找到目标记录,算法复杂化度为n。朋友能也能考虑一下为哪几个会1个 多多多多的差别。数组随便说说能也能随机读取,但数组下标是随机的,它与元素值这样 任何关系,相似 朋友要逐次访问各个元素。通过hash函数,朋友限定了每个下标位置因为存储的元素。1个 多多多,朋友利用键值和hash函数,就能也能具备相当的先验知识,来选着适当的下标进行搜索。在这样 hash碰撞的前提下,朋友只也能 选着一次,就能也能保证该下标指向的元素是朋友不会 的元素。
冲突
hash函数也能 防止hash冲突的难题。比如,后面 的hash函数中,"Obama"和"Oaamb"有相同的hash值,所处冲突。朋友要怎样防止呢?
1个 多多方案是将所处冲突的记录用链表储存起来,让hash值指向该链表,这叫做open hashing:
open hashing
朋友在搜索的只是,先根据hash值找到链表,再根据key值遍历搜索链表,直到找到记录。朋友能也能用相似 数据内控 代替链表。
open hashing也能 使用指针。朋友有只是不会 防止使用指针,以保持随机存储的优势,相似 采用closed hashing的方式来防止冲突。
closed hashing
相似 具体情况下,朋友将记录插进数组。当有冲突冒出的只是,朋友将冲突记录插进数组中依然闲置的位置,比如图中Obama被插入后,只是的Oaamb也被hash到4150位置。但因为4150被所处,Oaamb探测到下1个 多多闲置位置(通过将hash值加1),并记录。
closed hashing的关键在要怎样探测下1个 多多位置。后面 是将hash值加1。但也可算不算 其它的方式。概括的说,在第i次的只是,朋友应该探测POSITION(i)=(h(x) + f(i)) % HASHSIZE的位置。后面 将hash值加1的方式,就要花费设定f(i) = 1。当朋友在搜索的只是,就能也能利用POSITION(i),依次探测记录因为冒出的位置,直到找到记录。
(f(i)的选着会带来不同的结果,这里不再深入)
因为数组比较满,这样 closed hashing也能 进行相似 次探测也能找到空位。1个 多多多将大大减小插入和搜索的下行时延 。相似 具体情况下,也能 增大HASHSIZE,并将1个 多多多的记录插进到新的比较大的数组中。1个 多多多的操作称为rehashing。
总结
hash表,搜索
hash冲突, open hashing, closed hashing
欢迎继续阅读“纸上谈兵: 算法与数据内控 ”系列。