CTranslate2
CTranslate2 是一个 C++ 和 Python 库 用于高效推理 Transformer 模型。
该项目实现了一个自定义运行时,应用了许多性能优化 技术,如权重量化、层融合、批次 重排序等, 以加速并减少 Transformer 模型在 CPU 和 GPU 上的内存使用。
安装与设置
安装 Python 包:
pip install ctranslate2
大型语言模型
查看使 用示例。
from langchain_community.llms import CTranslate2