当前位置：首页|资讯|机器学习|GitHub

【机器学习】Github上爆火的机器学习资源numpy-ml

作者：人工智能大讲堂发布时间：2023-09-18

机器学习 GitHub

加州大学伯克利分校的david bourgin博士使用numpy手撸各种机器学习源码，Github爆砍13.3k小星星。

https://github.com/ddbourgin/numpy-ml/tree/master

我为什么要推荐这个资源？

目前开源的机器学习框架有很多，例如sklearn，scipy，tensorflow等等。

但是，当你想调试时，或者想查看某些细节是如何实现时，你会发现，这些框架都依赖了很多其他的库。

而numpy-ml仅依赖numpy。

由于没有使用其他第三方库，很多方法都是从零开始实现，当你想通过查看源码验证理论时，numpy-ml是个不错的选择。

例如，对于ALS矩阵分解，你可以通过代码查看求解子矩阵的迭代过程。

对于决策树的创建，如何通过信息增益计算分割条件的代码也非常详细。

主要内容：

Gaussian mixture model

EM training

Hidden Markov model

Viterbi decoding
Likelihood computation
MLE parameter estimation via Baum-Welch/forward-backward algorithm

Latent Dirichlet allocation (topic model)

Standard model with MLE parameter estimation via variational EM
Smoothed model with MAP parameter estimation via MCMC

Neural networks

col2im (MATLAB port)
im2col (MATLAB port)
conv1D
conv2D
deconv2D
minibatch

Bernoulli variational autoencoder
Wasserstein GAN with gradient penalty
word2vec encoder with skip-gram and CBOW architectures

ReLU
Tanh
Affine
Sigmoid
Leaky ReLU
ELU
SELU
GELU
Exponential
Hard Sigmoid
Softplus

Cross entropy
Squared error
Bernoulli VAE loss
Wasserstein loss with gradient penalty
Noise contrastive estimation loss

Glorot/Xavier uniform and normal
He/Kaiming uniform and normal
Standard and truncated normal

Constant
Exponential
Noam/Transformer
Dlib scheduler

SGD w/ momentum
AdaGrad
RMSProp
Adam

Batch normalization (spatial and temporal)
Layer normalization (spatial and temporal)

Dropout

Bidirectional LSTM
ResNet-style residual blocks (identity and convolution)
WaveNet-style residual blocks with dilated causal convolutions
Transformer-style multi-headed scaled dot product attention

Add
Flatten
Multiply
Softmax
Fully-connected/Dense
Sparse evolutionary connections
LSTM
Elman-style RNN
Max + average pooling
Dot-product attention
Embedding layer
Restricted Boltzmann machine (w. CD-n training)
2D deconvolution (w. padding and stride)
2D convolution (w. padding, dilation, and stride)
1D convolution (w. padding, dilation, stride, and causality)

Layers / Layer-wise ops
Modules
Regularizers
Normalization
Optimizers
Learning Rate Schedulers
Weight Initializers
Losses
Activations
Models
Utilities

Tree-based models

Decision trees (CART)
[Bagging] Random forests
[Boosting] Gradient-boosted decision trees

Linear models

Unknown mean, known variance (Gaussian prior)
Unknown mean, unknown variance (Normal-Gamma / Normal-Inverse-Wishart prior)

Ridge regression
Logistic regression
Ordinary least squares
Weighted linear regression
Generalized linear model (log, logit, and identity link)
Gaussian naive Bayes classifier
Bayesian linear regression w/ conjugate priors

n-Gram sequence models

Maximum likelihood scores
Additive/Lidstone smoothing
Simple Good-Turing smoothing

Multi-armed bandit models

Beta-Bernoulli sampler

UCB1
LinUCB
Epsilon-greedy
Thompson sampling w/ conjugate priors
LinUCB

Reinforcement learning models

Cross-entropy method agent
First visit on-policy Monte Carlo agent
Weighted incremental importance sampling Monte Carlo agent
Expected SARSA agent
TD-0 Q-learning agent
Dyna-Q / Dyna-Q+ with prioritized sweeping

Nonparameteric models

Nadaraya-Watson kernel regression
k-Nearest neighbors classification and regression
Gaussian process regression

Matrix factorization

Regularized alternating least-squares
Non-negative matrix factorization

Preprocessing

Discrete Fourier transform (1D signals)
Discrete cosine transform (type-II) (1D signals)
Bilinear interpolation (2D signals)
Nearest neighbor interpolation (1D and 2D signals)
Autocorrelation (1D signals)
Signal windowing
Text tokenization
Feature hashing
Feature standardization
One-hot encoding / decoding
Huffman coding / decoding
Byte pair encoding / decoding
Term frequency-inverse document frequency (TF-IDF) encoding
MFCC encoding

Utilities

Similarity kernels
Distance metrics
Priority queue
Ball tree
Discrete sampler
Graph processing and generators

既然numpy支持各种类型数据运算，为什么还需要其他机器学习框架？

虽然 NumPy 是一个功能强大的库，支持各种类型的数据运算，但它主要专注于数组操作和数值计算。在机器学习领域，除了基本的数值计算，还涉及到许多其他复杂的任务和算法。这就是为什么需要其他专门的机器学习框架的原因，其中一些主要包括：

高级机器学习算法：NumPy 只提供了有限的几种经典算法,不如完整框架包括的算法多，如果需要更高级的功能和优化。就需要专门的机器学习框架，如 TensorFlow、PyTorch 和 scikit-learn等。
自动微分和梯度计算：在训练神经网络等深度学习模型时，梯度计算是反向传播过程中进行参数更新的关键步骤。而Numpy没有提供自动求导功能，专门的框架提供了自动微分和梯度计算的功能。
高级数据处理和预处理：在机器学习任务中，数据的处理和预处理是非常重要的。专门的机器学习框架提供了丰富的工具和函数，用于数据加载、转换、特征工程和数据增强等操作。这些功能使得数据的准备和处理更加方便和灵活。
分布式计算和加速计算：对于大规模的数据集和复杂的模型，需要进行分布式计算和高性能的加速计算。一些机器学习框架提供了分布式计算的支持，可以在集群或GPU等加速硬件上运行模型训练和推理，以提高计算效率和速度。

推荐体验

相关资讯

Azure - 机器学习：创建机器学习所需资源，配置工作区

> 本文中你可以创建使用 Azure 机器学习所需的资源，包含工作区和计算实例。 > 关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济

techlead_krischang 2024-02-04

机器学习入门：基本概念和学习资源

机器学习是人工智能领域的重要分支，它通过从数据中学习，以自主提高性能的方式进行决策和预测。机器学习通常涉及数据处理、特征提取、模型训练和测试等技术，它在许多领域都有着广泛的应用，例如图像和语音识别、自然语言处理、推荐系统、医疗诊断和金融分析等。机器学习的基本概念：数据集：机器学习模型的训练和测试依赖于数据。数据集是一组已标记的数据，通常由输入特征和相应的输出标签组成。特征：输入数据的属性或特征通常是数值或离散值，例如图像的像素值或文本中的单词。模型：机器学习模型是对数据进行训练的算法或技术，它可以根据输入

人工智能医疗金融机器学习

哔哩人工智能学院 2023-02-18

【机器学习】给大家推荐几个资源

我写这个公众号的目的就是让大家了解人工智能背后的数学原理，但人工智能这个话题太大了，背后涉及到的知识非常庞大，仅靠写几篇文章传播力度有限，况且知识传播过程中也容易引入误解，所以授之以鱼不如授之以渔，这里给大家推荐一些资源。看书是学习必不可少的方式之一，今天给大家推荐一本机器学习数学原理和应用的书：MATHEMATICS FOR MACHINE LEARNING，PDF路径如下：https://mml-book.github.io/book/mml-book.pdf我把书的目录浓缩一下让大家先睹为快：Pa

机器学习人工智能 GitHub

人工智能大讲堂 2023-09-29

机器学习 Machine learning（上）

今天开一个新的学习旅程，讲机器学习和学习机器学习！1 机器学习的类型分类和回归树 Classifaication and regression tree (CART)广义自助模型 Generalized bossting models (GBM)人工神经网络 Artificial neural networks(ANN)规则集生成的遗传算法 Genetic algorithm for rule set production (GARP)最大熵法 Maximum entropy method (Maxent

人工智能机器学习

林木青同学 2023-03-31

复旦学子《可解释机器学习》中文版持续爆火！

可解释性是当下机器学习研究特点之一。最近，来自复旦大学的研究生朱明超，将《Interpretable Machine Learning》翻译成了中文。本文推介由朱明超同学亲自撰写。这本书最初是由德国慕尼黑大学博士Christoph Molnar耗时两年完成的，长达250页，是仅有的一本系统介绍可解释性机器学习的书籍。朱明超完成了这本书的翻译和校对工作，目前已经开源放到GitHub网页上。朱同学在翻译过程中还和原作者进行了多次讨论，中文版还得到了Christoph Molnar本人在Twiter上的推荐。“

复旦机器学习

人工智能AI课程 2023-08-17

近期资讯

这项挑战爆火！用它可以“检验”真爱？小心……

要了解静电为什么会有颜色，首先要了解静电的成因。当静电积累到一定程度后，会击穿空气，形成电火花（类似于闪电的产生），此时电流通过空气会使其分子激发，释放出能量，这种能量会以光的形式传播，也就是我们看到的光。

北京交通广播 2024-12-26

全球每卖出4颗CMOS芯片，就有一颗来自于中国上海

事实上，如果论销售额，以及高端CMOS芯片占比来看，确实是索尼厉害，这是索尼这么多年以来，不断努力的结果。按照2023年的数据，整个CMOS市场规模高达220亿美元，而索尼一家就拿下了45%左右的市场份额，其次是三星，占比为19%。

科技plus 2024-12-26

小桔充电“百城千站超充计划”发布新举措提升用户快速充电服务体验

自2024年初，小桔充电推出“百城千站超充计划”以来，超充网络布局已初显成效，最新数据显示，平台累计上线超充枪已超60000把，同比增幅超100%。

大象新闻 2024-12-26

《鲲鹏原生开发技术白皮书》发布，携更多伙伴迈入原生开发新时代

鲲鹏以其创新的计算架构和开源基础软件研发，引领着技术变革的前沿。通过战略性、长期性的研发投入，吸纳全球计算产业的优秀人才和先进技术，持续推进全栈计算技术的创新发展，加快构筑面向多样化计算的全球开源体系与产业标准。

中关村在线 2024-12-26

“智7未来开启智能时代”渤海银行手机银行7.0版焕新发布

2024年12月26日，渤海银行股份有限公司（以下简称“渤海银行”）在“智7未来，开启智能时代”主题发布会上正式推出手机银行7.0版，在数字金融领域迈出崭新一步。新时期，渤海银行总行党委明确提出零售业务账户银行、财富银行、生态银行的三大战略定位和发展模式。

中金在线 2024-12-26

OpenHarmony城市技术论坛第12期——合肥站圆满举办

2024年12月23日，OpenHarmony城市技术论坛（以下简称“技术论坛”）第12期——合肥站于中国科学技术大学高新校区圆满举办。本次技术论坛聚焦于“智能时代基础软件与数据管理”的主题，深入研讨OpenHarmony十大技术挑战、智能数据底座、列存储格式、键值存储系统等技术领域最新进展。

砍柴网 2024-12-26

陈梦2024年度总结

“不惧挑战，捍卫荣耀。期待在新的一年里继续发光发热，迎接更美好的未来！”

光明网 2024-12-26

广汽第三代具身智能人形机器人GoMate正式发布，预计2026年量产

12月26日，在2024年中国机器人网年会期间，广汽集团推出了自主研发的第三代具身智能人形机器人——GoMate。GoMate是一款全尺寸的轮足人形机器人，全身拥有38个自由度。

澎湃新闻 2024-12-26

12356将成为全国统一心理援助热线

【环球网科技综合报道】12月26日消息，国家卫生健康委方面消息，“12356”作为全国统一心理援助热线电话号码，近期有望投入运行。到2025年5月1日0时前，各地现有心理援助热线将与“12356”连接，实现一个号码接通心理援助热线。

环球网科技 2024-12-26

加速数据要素价值发挥，罗湖区数据产业生态联盟成立

记者林敏儿12月25日，罗湖区数据产业暨数据要素推介会举行，100多家政产学研企事业单位的代表齐聚一堂，共同探讨数据要素的市场化配置与应用路径。发展数据产业是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的重要举措。

南方都市报 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1