将 32 位循环计数器替换为 64 位会在 Intel CPU 上使用_mm_popcnt_u64 引起疯狂的性能偏差 c++ performance assembly x86 compiler-optimization