支持原位计算的高效三角矩阵乘法向量化方法

Journal of National University of Defense Technology（2014）

引用 0|浏览2

暂无评分

摘要

向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法：将 L1D 配置为 SRAM模式，用双缓冲的乒乓方式平滑多级存储结构的数据传输，使得内核的计算与 DMA 数据搬移完全重叠，让内核始终以峰值速度运行，从而取得最佳的计算效率；将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元，充分开发向量处理器的多级并行性；将结果矩阵保存在乘数矩阵中，实现原位计算，节省了存储空间。实验结果表明，提出的向量化方法使三角矩阵乘法性能达到1053．7GFLOPS，效率为91．47％。

查看译文

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要