2023-11-16 11:42:57 作者:姚立伟
11月16日,微软Ignite 2023大会盛大召开,英伟达高管出席并宣布更新了TensorRT-LLM版本。该版本现已支持对OpenAI Chat API的支持,并且还增强了DirectML功能。
今年10月份,英伟达面向数据中心和Windows PC推出了Tensor RT-LLM开源库。其中最大的亮点在于,如果Windows PC配备英伟达GeForce RTX GPU,那么使用TensorRT-LLM将使LLM在Windows PC上的运行速度提高四倍。
在Ignite 2023大会上,英伟达宣布更新TensorRT-LLM版本,并且新增了OpenAI的Chat API支持,同时还改进了DirectML功能以及Llama 2和Stable Diffusion等AI模型的性能。
利用这款工具包(即TensorRT-LLM),开发者可以在PC或工作站上快速创建、测试和定制预训练的生成式AI模型和LLM。目前,有关该产品抢先体验注册页面已经开放。
据悉,在本月晚些时候,英伟达将会发布TensorRT-LLM版本更新,其推理性能提高了5倍,并且还支持 Mistral 7B 和 Nemotron-3 8B等其它主流LLM技术。
用户可以在拥有8GB以上显存的GeForce RTX 30系列和40系列GPU上运行TensorRT-LLM,并且一些便携式Windows设备也能够享受到快速、准确的本地LLM功能带来的便利。