10.3 C++标准库中的并行算法

标准库中的大多数被执行策略重载的算法都在<algorithm><numeric>头文件中。包括有:all_of,any_of,none_of,for_each,for_each_n,find,find_if,find_end,find_first_of,adjacent_find,count,count_if,mismatch,equal,search,search_n,copy,copy_n,copy_if,move,swap_ranges,transform,replace,replace_if,replace_copy,replace_copy_if,fill,fill_n,generate,generate_n,remove,remove_if,remove_copy,remove_copy_if,unique,unique_copy,reverse,reverse_copy,rotate,rotate_copy,is_partitioned,partition,stable_partition,partition_copy,sort,stable_sort,partial_sort,partial_sort_copy,is_sorted,is_sorted_until,nth_element,merge,inplace_merge,includes,set_union,set_intersection,set_difference,set_symmetric_difference,is_heap,is_heap_until,min_element,max_element,minmax_element,lexicographical_compare,reduce,transform_reduce,exclusive_scan,inclusive_scan,transform_exclusive_scan,transform_inclusive_scan和adjacent_difference 。

所有C++并发化的算法都在这个列表中了。像std::accumlate这样的算法,严格来说是一个连续的积累,但在其广义的std::reduce也出现了在这个列表中——标准中适当的警告,即如果约简运算不同时具有关联性和交换性时,由于未指定的运算顺序,结果可能不确定。

对于列表中的每一个算法,每个”普通”算法的重载都有一个新的参数(第一个参数),这个参数将传入执行策略——“普通”重载的相应参数在此执行策略参数之后。例如,std::sort有两个没有执行策略的“普通”重载:

template<class RandomAccessIterator>
void sort(RandomAccessIterator first, RandomAccessIterator last);

template<class RandomAccessIterator, class Compare>
void sort(
  RandomAccessIterator first, RandomAccessIterator last, Compare comp);

因此,它还具有两个有执行策略的重载:

template<class ExecutionPolicy, class RandomAccessIterator>
void sort(
  ExecutionPolicy&& exec,
  RandomAccessIterator first, RandomAccessIterator last);

template<class ExecutionPolicy, class RandomAccessIterator, class Compare>
void sort(
  ExecutionPolicy&& exec,
  RandomAccessIterator first, RandomAccessIterator last, Compare comp);

有执行策略和没有执行策略的函数列表间有一个重要的区别,这只会影响到一些算法:如果“普通”算法允许输入迭代器或输出迭代器,那执行策略的重载则需要前向迭代器。因为输入迭代器是单向迭代的:只能访问当前元素,并且不能将迭代器存储到以前的元素。输出迭代器只允许写入当前元素:不能在写入后面的元素后,后退再写入前面的元素。

C++标准库中的迭代器类别

C++标准库定义了五类迭代器:输入迭代器、输出迭代器、正向迭代器、双向迭代器和随机访问迭代器。

输入迭代器是用于检索值的单向迭代器。通常用于控制台或网络的输入,或生成序列。该迭代器的任何副本都是无效的。

输出迭代器是用于向单向迭代器写入值。通常输出到文件或向容器添加值。该迭代器会使该迭代器的任何副本失效。

前向迭代器是通过数据不变进行单向迭代的多路径迭代器。虽然迭代器不能返回到前一个元素,但是可以存储前面元素的副本,并使用它们引用。前向迭代器返回对元素的实际引用,因此可以用于读写(如果目标是不是常量)。

双向迭代器是像前向迭代器一样的多路径迭代器,但是它也可以后向访问之前的元素。

随机访问迭代器是可以像双向迭代器一样前进和后退的多路径迭代器,是它们比单个元素大的跨距前进和后退,并且可以使用数组索引运算符,在偏移位置直接访问元素。

展示一下std::copy的“普通”函数签名:

template<class InputIterator, class OutputIterator>
OutputIterator copy(
  InputIterator first, InputIterator last, OutputIterator result);

带有执行策略的版本:

template<class ExecutionPolicy,
  class ForwardIterator1, class ForwardIterator2>
ForwardIterator2 copy(
  ExecutionPolicy&& policy,
  ForwardIterator1 first, ForwardIterator1 last,
  ForwardIterator2 result);

虽然,模板参数的命名没有从编译器的角度带来任何影响,但从C++标准的角度来看:标准库算法模板参数的名称表示语义约束的类型,并且算法的操作将依赖于这些约束,且具有特定的语义。对于输入迭代器与前向迭代器,前者对迭代器的引用返回允许取消代理类型,代理类型可转换为迭代器的值类型,而后者对迭代器的引用返回要求取消对值的实际引用,并且所有相同的迭代器都返回对相一值的引用。

这对于并行性很重要:这意味着迭代器可以自由地复制,并等价地使用。此外,增加正向迭代器不会使其他副本失效也很重要,因为这意味着单线程可以在迭代器的副本上操作,需要时增加副本,而不必担心使其他线程的迭代器失效。如果带有执行策略的重载允许使用输入迭代器,将强制线程序列化,对用于从源序列读取唯一迭代器的访问,显然限制了并行的可能性。

来看一下具体例子。

##10.3.1 并行算法的示例

最简单的例子就是并行循环:对容器的每个元素进行处理。这是令人尴尬的并行场景:每个项目都是独立的,所以有最大的并行性。使用支持OpenMP的编译器,代码就可以写成:

#pragma omp parallel for
for(unsigned i=0;i<v.size();++i){
  do_stuff(v[i]);
}

使用C++标准库算法,可以改写成:

std::for_each(std::execution::par,v.begin(),v.end(),do_stuff);

标准库将创建内部线程,并对数据进行划分,且对每个元素x调用do_stuff(x)。其中在线程间划分元素是一个实现细节。

执行策略的选择

std::execution::par是最常使用的策略,除非实现提供了更适合的非标准策略。如果代码适合并行化,那应该与std::execution::par一起工作。某些情况下,可以使用std::execution::par_unseq进行代替。这可能根本没什么用(没有任何标准的执行策略可以保证能达到并行性的级别),但它可以给库额外的空间,通过重新排序和交错任务执行来提高代码的性能,以换取对代码更严格的要求。更严格的要求中最值得注意的是,访问元素或对元素执行操作时不使用同步。这意味着不能使用互斥量或原子变量,或前面章节中描述的任何其他同步机制,以确保多线程的访问是安全的;相反,必须依赖于算法本身,而不是使用多个线程访问同一个元素,并在调用并行算法之外使用外部同步,从而避免其他线程访问数据。

清单10.1中的示例显示的代码中,可以使用std::execution::par,但不能使用std::execution::par_unseq。使用内部互斥量同步意味着使用std::execution::par_unseq将会导致未定义的行为。

清单10.1 具有内部同步并行算法的类

class X{
  mutable std::mutex m;
  int data;
public:
  X():data(0){}
  int get_value() const{
    std::lock_guard guard(m);
    return data;
  }
  void increment(){
    std::lock_guard guard(m);
    ++data;
  }
};
void increment_all(std::vector<X>& v){
  std::for_each(std::execution::par,v.begin(),v.end(),
    [](X& x){
    x.increment();
    });
}

下个清单展示了可使用std::execution::par_unseq的代码段。这种情况下,内部元素互斥量替换为整个容器的互斥量。

清单10.2 无内部同步并行算法的类

class Y{
  int data;
public:
  Y():data(0){}
  int get_value() const{
    return data;
  }
  void increment(){
    ++data;
  }
};
class ProtectedY{
  std::mutex m;
  std::vector<Y> v;
public:
  void lock(){
    m.lock();
  }
  void unlock(){
    m.unlock();
  }
  std::vector<Y>& get_vec(){
    return v;
  }
};
void increment_all(ProtectedY& data){
  std::lock_guard guard(data);
  auto& v=data.get_vec();
  std::for_each(std::execution::par_unseq,v.begin(),v.end(),
    [](Y& y){
      y.increment();
    });
}

清单10.2中的元素访问目前没有同步,使用std::execution::par_unseq是安全的。缺点是并行算法调用之外,其他线程的并发访问现在也必须等待整个操作完成,互斥锁的粒度与清单10.1中不同。

现在让我们来看一个现实的例子,详述如何使用并行算法:记录访问网站的次数。

10.3.2 计数访问

假设有一个运作繁忙的网站,日志有数百万条条目,你希望对这些日志进行处理以便查看相关数据:每页访问多少次、访问来自何处、使用的是哪个浏览器,等等。分析日志有两个部分:处理每一行以提取相关信息,将结果聚合在一起。对于使用并行算法来说,这是一个理想的场景,因为处理每一条单独的行完全独立于其他所有行,并且如果最终的合计是正确的,可以逐个汇总结果。

这种类型的任务适合transform_reduce,下面的代码展示了如何将其用于该任务。

清单10.3 使用transform_reduce来记录网站的页面被访问的次数

#include <vector>
#include <string>
#include <unordered_map>
#include <numeric>

struct log_info {
  std::string page;
  time_t visit_time;
  std::string browser;
  // any other fields
};

extern log_info parse_log_line(std::string const &line); // 1
using visit_map_type= std::unordered_map<std::string, unsigned long long>;
visit_map_type
count_visits_per_page(std::vector<std::string> const &log_lines) {
  struct combine_visits {
    visit_map_type
    operator()(visit_map_type lhs, visit_map_type rhs) const { // 3
      if(lhs.size() < rhs.size())
        std::swap(lhs, rhs);
      for(auto const &entry : rhs) {
        lhs[entry.first]+= entry.second;
      }
      return lhs;
    }
    visit_map_type operator()(log_info log,visit_map_type map) const{ // 4
      ++map[log.page];
      return map;
    }
    visit_map_type operator()(visit_map_type map,log_info log) const{ // 5
      ++map[log.page];
      return map;
    }
    visit_map_type operator()(log_info log1,log_info log2) const{ // 6
      visit_map_type map;
      ++map[log1.page];
      ++map[log2.page];
      return map;
    }
  };
  return std::transform_reduce( // 2
    std::execution::par, log_lines.begin(), log_lines.end(),
    visit_map_type(), combine_visits(), parse_log_line);
}

假设函数parse_log_line的功能是从日志条目中提取相关信息①,count_visits_per_page 函数是一个简单的包装器,将对std::transform_reduce的调用进行包装②。复杂度来源于规约操作:需要组合两个log_info结构体来生成一个映射,一个log_info结构体和一个映射(无论是哪种方式),或两个映射。这意味着combine_visits函数对象需要重载4个函数运算符,③④⑤和⑥;虽然这些重载很简单,但这里没有用Lambda表达式来实现。

因此,std::transform_reduce将使用硬件并行执行此计算(因为传了std::execution::par)。人工编写这个算法是非常重要的,正如在上一章中看到的,因此这允许将实现并行性的艰苦工作委托给标准库实现者,这样开发者就可以专注于期望的结果了。