RGW的index shard计算怎么实现

发布时间：2023-05-18 07:22:47

RGW是Ceph分布式存储系统中的对象存储服务。它的index shard是为了提高读取和写入效率而设计的，它将存储索引数据的一个大文件划分为多个小文件，每个小文件又被称为一个shard。每个shard的内容都是该文件的一个子集，这样就可以将读取和写入请求分摊到多个shard上，提高系统的并发处理能力。本文将介绍RGW的index shard计算实现方式。

一、shard计算规则

每个对象在RGW中都有一个的对象ID，RGW使用对象ID的一部分来确定它所属的shard。默认情况下，对象ID的后十位分为两部分，前五位表示对象所属的bucket ID的一部分，后五位表示对象在该bucket中的一部分。因此，每个shard表示一组对象，其中对象ID的后十位在相应的shard中具有相同的前五位。

具体的shard计算方法可以参考RGW的源代码。RGW使用一个名为_rgw_bucket_index_from_hash的C++函数来计算对象ID所属的shard。该函数通过使用 MurmurHash3算法从对象ID中提取5个字节，并将其转换为unsigned 32位整数，该整数再使用＆运算符和存储桶索引表的大小进行取模运算，以计算所属的shard的索引。例如，假设存储桶索引表的大小是100，对象ID的最后十位为“XXXXXYYYYY”，将“XXXXX”提取并转换为unsigned 32位整数，则计算得到的值为“X_Value”，将“X_Value＆99”再进行模运算，即可确定该对象所属的shard的索引。

二、shard数量和大小

RGW中的存储桶根据需要自动创建索引。索引的大小和数量是可以配置的，这取决于RGW实例中存储对象的数量和访问模式。一般来说，一个存储桶中的shard数量越多，每个shard的大小就越小。这将导致RGW在处理读取和写入请求时需要更多的CPU和内存资源，但能够提高访问效率和性能。

根据实际需要和资源限制，可配置每个存储桶中的shard数量和大小。在RGW的配置文件中，可以通过修改如下参数来控制shard的数量和大小：

rgw_bucket_index_max_shards = 32 #一个存储桶的最大shard数量

rgw_bucket_index_max_objects_per_shard = 32768 #shard中最大存储对象数量

rgw_max_objs_per_shard = 32768 #和上面那个这个的区别我也不太清楚

根据这些参数的设置，RGW会自动计算每个存储桶中的shard数量和大小，以更好的适应实际需求。一般来说，如果存储桶中的对象数量很大，并且访问模式比较频繁，可以适当增大shard数量和减小shard大小，以提高系统的并发处理能力和访问效率。

总之，RGW的index shard计算可以采用一些简单的规则来确定每个对象所属的shard，以提高系统的并发能力和访问效率。根据实际需求来配置shard的数量和大小，可以更好地适应不同的工作负载和资源限制。