TheLudGamer 发表于 2022-7-17 07:57

陈老师请问`__m128 vdata_1 = _mm_loadu_ps(&input);`这句,如果坐标在右边界,那么&input后面的地址就不对了,为什么_mm_loadu_ps不会出错呢?

johnsoncodehk 发表于 2022-7-17 07:58

的确会有越界的问题,感谢提醒。至于不报错的原因,可能因为并不妨碍从内存读取“脏数据”,但是这点我不是很确定,纯猜测。

mastertravels77 发表于 2022-7-17 08:05

报什么错误呢?

zifa2003293 发表于 2022-7-17 08:13

SSE中有scalar类型的指令,可以执行非vector的计算。如果数据量不是4的倍数,可以“浪费”一点,这个overhead并不高

acecase 发表于 2022-7-17 08:19

谢谢解答,不报错而且值是对的,就很奇怪[飙泪笑]。这系列写得很好,期待您的下篇文章[爱]。

stonstad 发表于 2022-7-17 08:27

接-化-发,,
页: 1 [2]
查看完整版本: 机器学习中的高性能计算(二)SSE优化