【OpenAI】私有框架代码生成实践

作者：京东云开发者发布时间：2023-05-04

作者：京东零售牛晓光

根据现有调研和实践，由OpenAI提供的ChatGPT/GPT-4模型和CodeX模型能够很好的理解和生成业界大多数编程语言的逻辑和代码，其中尤其擅长Python、JavaScript、TypeScript、Ruby、Go、C# 和 C++等语言。

然而在实际应用中，我们经常会在编码时使用到一些私有框架、包、协议和DSL等。由于相关模型没有学习最新网络数据，且这些私有数据通常也没有发布在公开网络上，OpenAI无法根据这些私有信息生成对应代码。

一、OpenAI知识学习方式

OpenAI提供了几种方式，让OpenAI模型学习私有知识：

1. 微调模型

OpenAI支持基于现有的基础模型，通过提供“prompt - completion”训练数据生成私有的自定义模型。

使用方法

在执行微调工作时，需要执行下列步骤：

准备训练数据：数据需包含prompt/completion，格式支持CSV, TSV, XLSX, JSON等。
格式化训练集：openai tools fine_tunes.prepare_data -f <LOCAL_FILE>
LOCAL_FILE：上一步中准备好的训练数据。
训练模型微调：openai api fine_tunes.create -t <LOCAL_FILE> -m <BASE_MODULE> --suffix "<MODEL_SUFFIX>"
LOCAL_FILE：上一步中准备好的训练集。
BASE_MODULE：基础模型的名称，可选的模型包括ada、babbage、curie、davinci等。
MODEL_SUFFIX：模型名称后缀。
使用自定义模型

使用成本

在微调模型方式中，除了使用自定义模型进行推理时所需支付的费用外，训练模型时所消耗的Tokens也会对应收取费用。根据不同的基础模型，费用如下：

基础模型

训练费用（美元/ 1,000 Tokens）

推理费用（美元/ 1,000 Tokens）

Ada

$0.0004

$0.0016

Babbage

$0.0006

$0.0024

Curie

$0.0030

$0.0120

Davinic

$0.0300

$0.1200

结论

使用微调模型进行私有知识学习，依赖于大量的训练数据，训练数据越多，微调效果越好。

此方法适用于拥有大量数据积累的场景。

2. 聊天补全

GPT模型接收对话形式的输入，而对话按照角色进行整理。对话数据的开始包含系统角色，该消息提供模型的初始说明。可以在系统角色中提供各种信息，如：

助手的简要说明
助手的个性特征
助手需要遵循的指令或规则
模型所需的数据或信息

我们可以在聊天中，通过自定义系统角色为模型提供执行用户指令所必要的私有信息。

使用方法

可以在用户提交的数据前，追加对私有知识的说明内容。

openai.createChatCompletion({

model: "gpt-3.5-turbo",

messages: [

{ role: "system", content: "你是一款智能聊天机器人，帮助用户回答有关内容管理系统低代码引擎CCMS的技术问题。智能根据下面的上下文回答问题，如果不确定答案，可以说“我不知道”。\n\n" +

"上下文：\n" +

"- CCMS通过可视化配置方式生成中后台管理系统页面，其通过JSON数据格式描述页面信息，并在运行时渲染页面。\n" +

"- CCMS支持普通列表、筛选列表、新增表单、编辑表单、详情展示等多种页面类型。\n" +

"- CCMS可以配置页面信息、接口定义、逻辑判断、数据绑定和页面跳转等交互逻辑。"

{ role: "user", content: "CCMS是什么？" }

]

}).then((response) => response.data.choices[0].message.content);

使用成本

除了用户所提交的内容外，系统角色所提交的关于私有知识的说明内容，也会按照Tokens消耗量进行计费。

分类

模型

推理费用（美元/ 1,000 Tokens）

GPT-4

gpt-4

输入：$0.0300 / 输出：$0.0600

gpt-4-32k

输入：$0.0600 / 输出：$0.1200

GPT-3.5

gpt-3.5-turbo

$0.0020

Chat

Ada

$0.0004

Babbage

$0.0005

Curie

$0.0020

Davinic

$0.0200

结论

使用聊天补全进行私有知识学习，依赖于系统角色的信息输入，且此部分数据的Tokens消耗会随每次用户请求而重复计算。

此方法适用于私有知识清晰准确，且内容量较少的场景。

二、私有知识学习实践

对于私有框架、包、协议、DSL等，通常具备比较完善的使用文档，而较少拥有海量的用户使用数据，所以在当前场景下，倾向于使用聊天补全的方式让GPT学习私有知识。

而在此基础上，如何为系统角色提供少量而精确的知识信息，则是在保障用户使用情况下，节省使用成本的重要方式。

3. 检索-提问解决方案

我们可以在调用OpenAI提供的Chat服务前，使用用户所提交的信息对私有知识进行检索，筛选出最相关的信息，再进行Chat请求，检索Tokens消耗。

而OpenAI所提供的嵌入（Embedding）服务则可以解决检索阶段的工作。

使用方法

准备搜索数据（一次性）
收集
准备完善的使用文档。如：https://jd-orion.github.io/docs
分块
将文档拆分为简短的、大部分是独立的部分，这通常是文档中的页面或章节。
嵌入
为每一个分块分别调用OpenAI API生成Embedding。
await openai.createEmbedding({ model: "text-embedding-ada-002", input: fs.readFileSync('./document.md', 'utf-8').toString(), }).then((response) => response.data.data[0].embedding);
存储
保存Embedding数据。（对于大型数据集，可以使用矢量数据库）
检索（每次查询一次）
为用户的提问，调用OpenAI API生成Embedding。（同1.3步骤）
使用提问Embedding，根据与提问的相关性对私有知识的分块Embedding进行排名。
const fs = require('fs'); const { parse } = require('csv-parse/sync'); const distance = require( 'compute-cosine-distance' ); function (input: string, topN: number) { const knowledge: { text: string, embedding: string, d?: number }[] = parse(fs.readFileSync('./knowledge.csv').toString()); for (const row of knowledge) { row.d = distance(JSON.parse(row.embedding), input) } knowledge.sort((a, b) => a.d - b.d); return knowledge.slice(0, topN).map((row) => row.text)); }
提问（每次查询一次）
给请求的系统角色插入与问题最相关的信息
async function (knowledge: string[], input: string) { const response = await openai.createChatCompletion({ model: "gpt-3.5-turbo", messages: [ { role: 'system', content: "你是一款智能聊天机器人，帮助用户回答有关内容管理系统低代码引擎CCMS的技术问题。\n\n" + knowledge.join("\n") }, { role: 'user', content: input } ] }).then((response) => response.data.choices[0].message.content); return response }
返回GPT的答案

使用成本

使用此方法，需要一次性的支付用于执行Embedding的费用。

模型

使用（美元/ 1,000 Tokens）

Ada

$0.0004

三、低代码自然语言搭建案例

解决了让GPT学习私有知识的问题后，就可以开始使用GPT进行私有框架、库、协议和DSL相关代码的生成了。

本文以低代码自然语言搭建为例，帮助用户使用自然语言对所需搭建或修改的页面进行描述，进而使用GPT对描述页面的配置文件进行修改，并根据返回的内容为用户提供实时预览服务。

使用方法

OpenAI调用组件

const { Configuration, OpenAIApi } = require("openai");

const openai = new OpenAIApi(new Configuration({ }));

const distance = require('compute-cosine-distance');

const knowledge: { text: string, embedding: string, d?: number }[] = require("./knowledge")

export default function OpenAI (input, schema) {

return new Promise((resolve, reject) => {

// 将用户提问信息转换为Embedding

const embedding = await openai.createEmbedding({

model: "text-embedding-ada-002",

input,

}).then((response) => response.data.data[0].embedding);

// 获取用户提问与知识的相关性并排序

for (const row of knowledge) {

row.d = distance(JSON.parse(row.embedding), input)

}

knowledge.sort((a, b) => a.d - b.d);

// 将相关性知识、原始代码和用户提问发送给GPT-3.5模型

const message = await openai.createChatCompletion({

model: "gpt-3.5-turbo",

messages: [

{

role: 'system',

content: "你是编程助手，需要阅读协议知识，并按照用户的要求修改代码。\n\n" +

"协议知识：\n\n" +

knowledge.slice(0, 10).map((row) => row.text).join("\n\n") + "\n\n" +

"原始代码：\n\n" +

"```\n" + schema + "\n```"

{

role: 'user',

content: input

}

]

}).then((response) => response.data.choices[0].message.content);

// 检查返回消息中是否包含Markdown语法的代码块标识

let startIndex = message.indexOf('```');

if (message.substring(startIndex, startIndex + 4) === 'json') {

startIndex += 4;

}

if (startIndex > -1) {

// 返回消息为Markdown语法

let endIndex = message.indexOf('```', startIndex + 3);

let messageConfig;

// 需要遍历所有代码块

while (endIndex > -1) {

try {

messageConfig = message.substring(startIndex + 3, endIndex);

if (

) {

resolve(messageConfig);

break;

}

} catch (e) {

}

startIndex = message.indexOf('```', endIndex + 3);

if (message.substring(startIndex, startIndex + 4) === 'json') {

startIndex += 4;

}

if (startIndex === -1) {

reject(['OpenAI返回的信息不可识别：', message]);

break;

}

endIndex = message.indexOf('```', startIndex + 3);

}

} else {

// 返回消息可能为代码本身

try {

const messageConfig = message;

if (

) {

resolve(messageConfig);

} else {

reject(['OpenAI返回的信息不可识别：', message]);

}

} catch (e) {

reject(['OpenAI返回的信息不可识别：', message]);

}

})

}

低代码渲染

import React, { useState, useEffect } from 'react'

import { CCMS } from 'ccms-antd'

import OpenAI from './OpenAI'

export default function App () {

const [ ready, setReady ] = useState(true)

const [ schema, setSchema ] = useState({})

const handleOpenAI = (input) => {

OpenAI(input, schema).then((nextSchema) => {

setReady(false)

setSchema(nextSchema)

})

}

useEffect(() => {

setReady(true)

}, [schema])

return (

{ready && (

<CCMS

config={pageSchema}

)}

<Popover

placement="topRight"

trigger="click"

content={

<Form.Item label="使用OpenAI助力搭建页面：" labelCol={{ span: 24 }}>

<Input.TextArea

placeholder="请在这里输入内容，按下Shift+回车确认。"

defaultValue={defaultPrompt}

onPressEnter={(e) => {

if (e.shiftKey) {

handleOpenAI(e.currentTarget.value)

}

}}

</Form.Item>

}

</Popover>

</div>

}

四、信息安全

根据OpenAI隐私政策说明，使用API方式进行数据访问时：

除非明确的授权，OpenAI不会使用用户发送的数据进行学习和改进模型。
用户发送的数据会被OpenAI保留30天，以用于监管和审查。（有限数量的授权OpenAI员工，以及负有保密和安全义务的专业第三方承包商，可以访问这些数据）
用户上传的文件（包括微调模型是提交的训练数据），除非用户删除，否则会一直保留。

另外，OpenAI不提供模型的私有化部署（包括上述微调模型方式所生成的自定义模型），但可以通过联系销售团队购买私有容器。

文中所使用的训练数据、私有框架知识以及低代码框架均源自本团队开发并已开源的内容。用户使用相关服务时也会进行数据安全提示。

近期资讯

日照中豪建筑设计取得一种建筑电气智能化节能控制装置专利，对节能控制装置内部散热降温避免电子元件损伤

金融界2024年12月30日消息，国家知识产权局信息显示，日照中豪建筑设计有限公司取得一项名为“一种建筑电气智能化节能控制装置”的专利，授权公告号CN222216333U，申请日期为2024年4月。

金融界 2024-12-30

山东春帆电气取得一种半导体器件生产贴装设备专利，有利于将电路板进行定位

金融界2024年12月30日消息，国家知识产权局信息显示，山东春帆电气设备有限公司取得一项名为“一种半导体器件生产贴装设备”的专利，授权公告号CN222216349U，申请日期为2024年4月。

金融界 2024-12-30

苏州泰富金电子科技取得一种复合阻燃型导电泡棉专利，达到固定拼接作用避免连接易脱落的情况

金融界2024年12月30日消息，国家知识产权局信息显示，苏州泰富金电子科技有限公司取得一项名为“一种复合阻燃型导电泡棉”的专利，授权公告号CN222216341U，申请日期为2023年12月。

金融界 2024-12-30

山东双枭机电科技取得一种电气工程用便装式电气设备散热装置专利，散热装置可快速插入电气设备通孔缩短安装时间

金融界2024年12月30日消息，国家知识产权局信息显示，山东双枭机电科技有限公司取得一项名为“一种电气工程用便装式电气设备散热装置”的专利，授权公告号CN222216340U，申请日期为2024年11月。专利摘要显示，本实用新型涉及一种散热装置，尤其涉及一种电气工程用便装式电气设备散热装置。

金融界 2024-12-30

康士微取得用于贴片机下料机构专利，可降低大量能源效果减少生产经济负担

金融界2024年12月30日消息，国家知识产权局信息显示，康士微电子科技（无锡）有限公司取得一项名为“用于贴片机的下料机构”的专利，授权公告号CN222216350U，申请日期为2024年4月。

金融界 2024-12-30

厦门强力巨彩取得一种贴片机料架专利，使得料盘转动摩擦小

金融界2024年12月30日消息，国家知识产权局信息显示，厦门强力巨彩光电科技有限公司取得一项名为“一种贴片机料架”的专利，授权公告号CN222216347U，申请日期为2023年12月。

金融界 2024-12-30

洲明科技取得一种贴片治具及灯板专利，使贴片治具与灯板的连接更为简便同时更耐高温

金融界2024年12月30日消息，国家知识产权局信息显示，深圳市洲明科技股份有限公司取得一项名为“一种贴片治具及灯板”的专利，授权公告号CN222216348U，申请日期为2023年12月。

金融界 2024-12-30

浙江贝瑞姆精密机械取得屏蔽罩组件专利，能够对散热孔大小及位置调节以适应不同规格电路

金融界2024年12月30日消息，国家知识产权局信息显示，浙江贝瑞姆精密机械有限公司取得一项名为“一种屏蔽罩组件”的专利，授权公告号CN222216342U，申请日期为2024年1月。

金融界 2024-12-30

常州市润嘉农业科技有限公司取得具有调节效果的电子组装平台专利，可自动输送电子件

金融界2024年12月30日消息，国家知识产权局信息显示，常州市润嘉农业科技有限公司取得一项名为“一种具有调节效果的电子组装平台”的专利，授权公告号CN222216353U，申请日期为2024年3月。

金融界 2024-12-30

余姚市荣达电器有限公司取得高效散热的热流道温控箱专利，大大提高散热效率

金融界2024年12月30日消息，国家知识产权局信息显示，余姚市荣达电器有限公司取得一项名为“一种高效散热的热流道温控箱”的专利，授权公告号CN222216332U，申请日期为2024年4月。

金融界 2024-12-30