tensorflow 六种方法构建读入batch样本(含序列特征处理),踩坑经验值得收藏

作者：算法全栈之路发布时间：2023-02-19

书接上文，对 图机器学习算法 感兴趣的同学可以去图算法十篇之图机器学习系列文章总结这里查看，对 推荐广告算法 感兴趣的同学可以去这里系列小作文之企业级机器学习pipline总结查看，干货多多哦！而对 使用 tensorflow 实现复杂机器学习/深度学习模型 感兴趣的同学, 欢迎关注 算法全栈之路 的公众号接下来逐步更新的 模型手把手系列 的文章～

本篇是 模型手把手系列 的第二篇文章，本系列的上一篇文章模型手把手系列开篇之 python、spark 和 java 生成TFrecord 中我们主要说明了如何用多种方式生成 tensorflow 官方推荐 的数据格式 tfrecord 的方法，而本章我们则将继续看看 tensorflow 如何读取各种类型的特征，特别是序列特征数据 ，并使用多种方法生成 batch 训练样本，代码涵盖 tensorflow 1.x 系列 和 tensorflow 2.x 系列 的方法，走过路过不能错过哦！

作者花了大量时间来整理本文章里介绍的多种方法的源码，是因为在当初写图算法相关的文章之图上 deepwalk 算法理论与实战，图算法之瑞士军刀篇(一) 以及图上 deepwalk 算法理论与 tensorflow keras 实战，图算法之瑞士军刀篇(二) 这两篇文章的时候， 小小的 batch 数据生成，坑死了我这个混迹于国内外互联网大厂多年的算法老同志～ ，有些问题没遇到不算事，遇到了找bub 真是要了我的小命了。闲言少叙，就看文章干不干，转需吧～

本文主要讲解了 6 种用tensorflow 1.x / 2.x 如何读取 训练数据，特别是 序列特征数据 的处理方法。因为这些方法有着各自的应用场景和各自使用特点，算是对上次遇坑的报复性解决心理吧，这里我全部把开发列举出来了，希望可以切实的帮助到同样遇到问题的老哥。

老话说得好： 代码是表达程序员思想的最好语言。本文的数据读入代码，刻意剖析了使用 tensorflow 多种方法读入 用户历史行为序列特征 的过程，代码每个单元cell 均可以独立完美 运行成功，具有极高的参考价值哦。详细内容直接看代码吧！～～

(1)代码时光

本文共介绍了 6种 tensorflow 读取数据并 batch 训练的方法，包括使用 slice_input_producer、from_tensor_slices、generate、interleave 以及 自定义生成batch 数据 等方法，下面就让我们一种一种方法的介绍吧，总有一种适合你的。

(1.0) 数据准备

本文用到的数据，从 内存中 读取csv的，我们在这里直接列出；而使用到 tfrecord 的，我们则使用的上文模型手把手系列开篇之 python、spark 和 java 生成TFrecord 中python方法单机版生成的tfrecord 数据。

@ 欢迎关注作者公众号算法全栈之路 import pandas as pd raw_df = pd.DataFrame([[28,12.1,'male',[1,2],1], [30,8.7, 'female',[3,4,5],0], [32,24.6,'female',[6,7,8,9,10],1]], columns=['age', 'price','sex','click_list','label']) # 序列特征长度不够填充,使用 tf.train.batch 生成 batch 必须要定长序列 max_len=5 padding_value=0 raw_df['click_list'] = raw_df['click_list'].apply(lambda x: x + [padding_value]*(max_len- len(x))) raw_df['click_list_str'] = raw_df['click_list'].apply(lambda x: '#'.join(map(str, x))) # 普通特征处理 raw_df['age'] = raw_df['age'].astype(str) raw_df['sex'] = raw_df['sex'].astype(str) raw_df['label'] = raw_df['label'].astype(str) print(raw_df) raw_df.to_csv("read_sample.csv",sep='\t',index=False)

代码很简单，我就不赘述了。

中间要注意的是：click_list 这一列特征就是 序列特征 ，每个用户的历史行为序列的长度 并非定长 ，但是在某些方法里， 生成batch特征的时候，要求list 类型的数据是定长的 ，所以我这里用默认值 0 进行了 padding 填充。

（1.1）tensorflow 1.x 使用 slice_input_producer 生成 batch 数据

看代码吧。

@ 欢迎关注作者公众号算法全栈之路 import tensorflow.compat.v1 as tf tf.compat.v1.disable_eager_execution() # 创建输入数据队列 input_queue = tf.train.slice_input_producer( [raw_df['age'].to_list(), raw_df['price'].to_list(),raw_df['sex'].to_list(), raw_df['click_list'].to_list(),raw_df['label'].to_list()], shuffle=True ) # 读取队列中的数据 all_sample_count = len(raw_df) batch_size = 2 num_threads = 1 min_after_dequeue = 1 all_feature_batch = tf.train.batch( input_queue, batch_size=batch_size, num_threads=num_threads, capacity=min_after_dequeue + (num_threads + 1) * batch_size ) # 打印输出结果 with tf.Session() as sess: # 初始化变量 sess.run(tf.global_variables_initializer()) # 启动队列操作 coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) for i in range(all_sample_count//batch_size): age_batch, price_batch, sex_batch,click_list_batch,label_batch = sess.run(all_feature_batch) print(f"age_batch: {age_batch}\n price_batch: {price_batch}\n sex_batch: {sex_batch} n click_list_batch: {click_list_batch} n label_batch: {label_batch} ") coord.request_stop() coord.join(threads)

这里这里的 tf 是 import tensorflow.compat.v1 as tf ，适配于 tensorflow 1.x 系列 的模型。

这里主要用了 tf.train.slice_input_producer 和 tf.train.batch 数据来生成batch 数据。

还是 重点说下序列特征 列 click_list_batch ，这里读入的是一个历史点击行为序列ID list，是 定长的 int 型 。定长那就好办了呀，直接 接embeding matrix 拿到每个 id 对应的 embeding 然后扔进模型里去。

这个 cell 里的代码是可以跑通的，如果确实帮助到你了，欢迎 关注作者的公众号 凑个份子～

（1.2）tensorflow 2.0 直接使用 from_tensor_slices 生成 batch 数据

@ 欢迎关注作者公众号算法全栈之路 import tensorflow as tf tf.config.run_functions_eagerly(True) print("eager_status:",tf.executing_eagerly()) import pandas as pd batch_size = 3 max_len=5 raw_df['click_list'] = raw_df['click_list'].apply(lambda x: '#'.join(map(str, x))) raw_df['age'] = raw_df['age'].astype(str) raw_df['price'] = raw_df['price'].astype(str) dataset = tf.data.Dataset.from_tensor_slices((raw_df[['age', 'price', 'sex', 'click_list']].values, raw_df['label'].values)) dataset = dataset.shuffle(buffer_size=len(raw_df)).batch(batch_size) # Iterate over the batches for batch in dataset: features, labels = batch # 定位到序列特征所在位置 str_list_batch = features[:,3:4] list_feature=tf.strings.split(str_list_batch,"#") # 输出是一个SparseTensorValue对象 # https://blog.csdn.net/ustbbsy/article/details/116644136 print("ccccc:",list_feature.values) print(list_feature.shape) print('Features:', features) # 另一种定位序列特征的方式 print('Features(1):', features[1][3]) print('Labels:', labels) print()

注意：因为我本机mac 的 tensorflow 版本是 2.6.0 的版本，所以这里tf默认就是2.6.0了。

我们可以使用

tf.config.run_functions_eagerly(True) print("eager_status:",tf.executing_eagerly())

来确认是否启动了 tensorflow 2.x系列的 eager 模式 。

这里还是重点说一些 序列特征吧，这里读入的是把序列特征拼接成一个字符串，然后在对每个batch里进行字符串的分割，我们这里用到的方法是：

str_list_batch = features[:,3:4] list_feature=tf.strings.split(str_list_batch,"#")

注意 tf.strings.split 的返回是一个 SparseTensorValue 对象， .values 属性可以拿到具体的值。

因为是 把序列特征拼接成了字符串，所以我们这里 不要求序列长度是定长 的，非定长的序列特征处理 得到 SparseTensorValue 之后，我们可以使用 tf.Variable 或 tf.keras.layers.Embedding 来创建该嵌入矩阵。最后，我们可以使用 tf.nn.embedding_lookup_sparse()函数来获取嵌入向量。

最后在强调一点 就是：对于支持 eager模式的 dataset，我们可以直接用for循环以及dict 来获取对应特征的取值 哦，非常方便，非常强大，使用前 注意确认 eager模式是否开启。

（1.3）使用 dataset 的 generate 生成 batch 数据

对于 数据量不太大 的训练数据，很多同学还是习惯使用 python 的 yeild 来构建generator , 所以我们也提供了基于 generator 来生成 batch 样本的方法，看代码吧～

@ 欢迎关注作者公众号算法全栈之路 import tensorflow as tf import pandas as pd import numpy as np # 创建一个虚拟的 pandas dataframe df = pd.DataFrame({ 'float_col': np.random.rand(3), 'int_col': np.random.randint(0, 10, size=(3)), 'str_col': ['string{}'.format(i) for i in range(3)], 'list_col': [[i, i+1] for i in range(3)] }) print(df) # 创建一个生成器函数，用于将 pandas dataframe 转换为 Tensorflow 数据集 def generator(): for index, row in df.iterrows(): yield ( { 'float_input': row['float_col'], 'int_input': row['int_col'], 'str_input': row['str_col'], 'list_input': row['list_col'] }, row['int_col'] # 将 int_col 作为标签 ) # 创建 Tensorflow 数据集 dataset = tf.data.Dataset.from_generator(generator, output_signature=( { 'float_input': tf.TensorSpec(shape=(), dtype=tf.float32), 'int_input': tf.TensorSpec(shape=(), dtype=tf.int32), 'str_input': tf.TensorSpec(shape=(), dtype=tf.string), 'list_input': tf.TensorSpec(shape=(2,), dtype=tf.int32) }, tf.TensorSpec(shape=(), dtype=tf.int32) )) # 对数据进行批次处理 batch_size = 8 dataset = dataset.batch(batch_size) # 打印数据集中的第一个批次 for feature_batch, label_batch in dataset: print('float_input:', feature_batch['float_input']) print('int_input:', feature_batch['int_input']) print('str_input:', feature_batch['str_input']) print('list_input:', feature_batch['list_input']) print('label:', label_batch)

这里的重点依然是 序列特征的处理 ，对于定长以及非定长的序列特征，本文前面均进行了说明，这里我就不在强调了，往上翻去找找就可以看到哦。

（1.4）使用dataset 的 interleave 接口去读取 txt 样本文本文件

接下来要介绍的 两种方法，才是我们在工业上 大数据场景下 实际使用的 非常多的特征数据读入方法，看代码吧～

@ 欢迎关注作者公众号算法全栈之路 import tensorflow as tf print("eager_status:",tf.executing_eagerly()) tf.config.run_functions_eagerly(True) # 训练集所有的列 TRAIN_SET_ALL_COLUMNS=["age", "price", "sex", "click_list", "label", "click_list_str"] # 没有用到的列，这里把去掉 TRAIN_SET_USELESS_COLUMN_NAMES=['click_list'] # 并行度 NUM_PARALLEL_FOR_DATASET=1 BATCH_SIZE=2 def parse_txt_line(line, label_dtype): if label_dtype == tf.dtypes.float32: label_default_value = 0.0 else: label_default_value = 0 # int64类型的默认值，用long(0)也不好使，要设置一个真正大于int32的数值 # 默认值个数必须和读入个数一致,很重要 ValueError: not enough values to unpack (expected 12, got 4) # 整数默认是 [1 << 32] # 默认值很重要,格式不对会导致这个问题 # ValueError: Column dtype and SparseTensors dtype must be compatible. key: adid, column dtype: # <dtype: 'string'>, tensor dtype: <dtype: 'int64'> field_defaults = [ [""], [""], [""], [""],[label_default_value],[""]] # 从csv格式中解析出这些字段 age, price, sex, click_list, label, click_list_str = tf.io.decode_csv(line, field_defaults, field_delim="\t") # 对一些字段使用 tf.cast 进行类型转换,这里完全不需要,下游有进行hash # adid = tf.cast(adid, tf.dtypes.int32) # | 号分隔, tf.strings.to_number 把字符串转化为默认浮点数 # user_click_seq = tf.strings.to_number(tf.strings.split(user_click_seq, sep="|")) label = tf.cast(label, tf.int64) fields_values = [age, price, sex, click_list, label, click_list_str] features = dict(zip(TRAIN_SET_ALL_COLUMNS, fields_values)) # 没有用到de列，需要pop出去 for useless_column_name in TRAIN_SET_USELESS_COLUMN_NAMES: features.pop(useless_column_name) label = features.pop("label") # 返回一个dict{feature_name,value} 和 label return features, label def get_text_dataset(data_set_path_list, label_dtype): filenames_dataset = tf.data.Dataset.from_tensor_slices(data_set_path_list) raw_dataset = filenames_dataset.interleave( # 2个线程并行去读 TextLineDataset lambda x: tf.data.TextLineDataset(x, num_parallel_reads=NUM_PARALLEL_FOR_DATASET), # NUM_PARALLEL_FOR_DATASET=2 cycle_length=NUM_PARALLEL_FOR_DATASET, block_length=BATCH_SIZE, num_parallel_calls=NUM_PARALLEL_FOR_DATASET ) raw_dataset = raw_dataset. \ map(lambda line: parse_txt_line(line, label_dtype), num_parallel_calls=NUM_PARALLEL_FOR_DATASET). \ apply(tf.data.experimental.ignore_errors()) # 格式 dict(fea_name,value) , label return raw_dataset train_set_path_list=["read_sample.csv"] train_raw_dataset = get_text_dataset(train_set_path_list, label_dtype=tf.dtypes.int64) for feature_batch, label_batch in train_raw_dataset: print(feature_batch['age']) print(label_batch)

这里的代码是 工业大数据场景下 常用的方法，我们使用 tf.data.Dataset.from_tensor_slices 接口，一般会 先使用 tf.io.gfile 相关的接口读取到 hdfs 大数据集群上的文件路径 ，然后 tf.data.TextLineDataset 去 并行读取，这里的方法主要调用了 parse_txt_line 这个方法来解析单行的样本文件。

这里的序列特征，我们可以在 parse_txt_line 用 python方法把处理成 list 数据，但是 要求定长，具体方法看本文开始的时候的处理方法。当然，也可以在获得 batch 得时候用 tf.strings.split 进行处理，和上面开篇第二种方法一样。

更近一步，甚至我们可以将序列特征字符串一直放到模型里去处理都是可以的。

(1.5) 使用dataset 的 interleave 接口去读取 tfrecord 文件

这个方法是 企业级机器学习pipline 处理大数据量下 模型训练 用到最多 的方法，甚至 tfrecord 能够 兼容语音图像 等格式，这一块感兴趣的同学自己下去查看资料吧，我们这里主要介绍的都是数值以及字符串列表 等 搜广推算法 更多用到的特征数据。

@ 欢迎关注作者公众号算法全栈之路 import tensorflow as tf print("eager_status:",tf.executing_eagerly()) tf.config.run_functions_eagerly(True) # 并行度 NUM_PARALLEL_FOR_DATASET=1 BATCH_SIZE=2 def get_tf_record_dataset(data_set_path_list,shuffle=True): files = tf.data.Dataset.list_files(data_set_path_list, shuffle=shuffle) dataset = files.apply( tf.data.experimental.parallel_interleave( lambda x: tf.data.TFRecordDataset(x, num_parallel_reads=NUM_PARALLEL_FOR_DATASET), cycle_length=NUM_PARALLEL_FOR_DATASET, block_length=BATCH_SIZE, sloppy=False ) ) # parsing_spec 是一个字典, 它提供了每个特征到 "FixedLenFeature" 或 "VarLenFeature" 的映射 parsing_spec = { 'age': tf.io.FixedLenFeature([1], tf.int64), 'price': tf.io.FixedLenFeature([1],tf.float32), 'gender': tf.io.FixedLenFeature([1], tf.string), 'click_list': tf.io.VarLenFeature(tf.int64), 'label': tf.io.FixedLenFeature([1],tf.int64) } def read_batch(serialized): feature = tf.io.parse_example(serialized, features=parsing_spec) label = feature['label'] return feature, {"label": label} raw_tfrecord_data = dataset.map(read_batch, NUM_PARALLEL_FOR_DATASET) # 格式 dict(fea_name,value), label return raw_tfrecord_data train_set_path_list=["py_tf_record"] train_raw_dataset = get_tf_record_dataset(train_set_path_list) for feature_batch, label_batch in train_raw_dataset: print("age:",feature_batch['age']) # 这里的 click_list 返回的是一个 SparseTensor, 用 .values 方法可以得到值。 print("click_list:",feature_batch['click_list'].values) print('label:',label_batch)

特别推荐 这里介绍的处理数据的方法，将训练数据保存为 tfrecord 格式，不仅 速度快 而且 节省存储 空间，对生成 tfrecord 数据不熟悉的同学，可以去看作者的上一篇文章模型手把手系列开篇之 python、spark 和 java 生成TFrecord 。

这里 重点要强调 的是 parsing_spec 和 read_batch 方法，parsing_spec 中定义来 定长和变长 tfrecord 数据的解析方法，非常优秀，读出来得 序列特征 是变长的 SparseTensor, 后面处理得到 embeding 的方法，可与参考上面文章介绍的 SparseTensor 得到 embeding 得部分内容哦，这里我就也不再赘述了。

本文到这里，我们共介绍了 5 种 tensorflow 读取数据 的方法，后两种 为工业大数据模型训练场景下的 算法利器，强烈推荐。

加上图上 deepwalk 算法理论与实战，图算法之瑞士军刀篇(一) 文章里使用的 自定义生成 batch 数据 的方法，共有 6种方法 来适配不同的业务数据读取场景了，可以 算是集 tensorflow 读取数据的大成之作了，每一个小节的代码均可以独立运行成功，非常 值得收藏！

到这里， 模型手把手系列开篇之 tensorflow 六种方法读入batch样本(含序列特征处理), 踩坑经验值得收藏 的全文就写完了。本文代码每个模块均可以独立跑成功，总有一款适合你，希望可以对你有参考作用～

码字不易，觉得有收获就动动小手转载一下吧，你的支持是我写下去的最大动力～

更多更全更新内容，欢迎关注作者的公众号：算法全栈之路

- END -

tensorflow 六种方法构建读入batch样本(含序列特征处理),踩坑经验值得收藏

(1)代码时光

(1.0) 数据准备

（1.1）tensorflow 1.x 使用 slice_input_producer 生成 batch 数据

（1.2）tensorflow 2.0 直接使用 from_tensor_slices 生成 batch 数据

（1.3）使用 dataset 的 generate 生成 batch 数据

（1.4）使用dataset 的 interleave 接口去读取 txt 样本文本文件

(1.5) 使用dataset 的 interleave 接口去读取 tfrecord 文件

推荐体验

相关资讯

LLM - finetuning - 踩坑经验之谈

夏宇诗集六种加一夏宇

如何与AI聊天？分享这六种方式

14岁即Kaggle Master，这些比赛经验值得借鉴！

机器学习特征处理详解与 tensorflow feature_column 接口实战

近期资讯

蔚来这十年到底怎么花的钱

特斯拉开卖199元摆件：15分钟被抢光，二手交易平台已炒到上千元

阿里云AI独家合作央视春晚，互联网大厂追捧“春晚经济学”

理想祝贺零跑成立九周年：一起为用户带来安全可靠的体验

如何高效清理和管理浏览器书签，提升上网效率

京东员工提前过年！刘强东自掏腰包送8万盒巧克力

我国首个商用堆在线辐照生产同位素装置投运，打破医用同位素长期依赖进口局面

统帅BCD-218LLC3EZS9冰箱：934元，218升风冷无霜，节能新选择

赵明回应iPhone降价：让行业更加聚焦消费者价值呈现

阿里云独家央视春晚创造历史！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响