railsconf时,在oreilly展台见到一本'Programming Collective Intelligence'的书,其实是讲data mining的。比其他的教科书类书易懂的多。下面摘抄了一下有用的内容:
=knn=
+ new data can be added at any time--does not require any computation at all; the data is simply added to the set.
- it requires all the trainning data to be present in order to make predictions. In a dataset with millions of examples, this is not just a space issue but also a time issue.
=svm=
+ after training they are very fast to classify new observations.
- black box technique. A SVM may give great answers, but you will never really know why.
- require retrainning if the data changes
=neural network=
+ allow incremental training and generally don't require a lot space to store the trained models.
- black box technique
=decision tree=
+ easy to interpret trained model, brings important factors to the top of the tree.
- Have to start from scartch each time (decision trees that support incremental training are an active area of research)
- tree can becomes extremely large and complex and would be slow to make classification.
=naive bayesian=
+ speed is good for training and querying, even with large data set
+ incremental
+ easy to interpret what the classifier has actually learned
- unable to deal with outcomes that change based on combinations of features.
分享到:
相关推荐
:trophy: 使用K-NN,多类感知器和SVM等分类器进行手写数字识别的比较研究 有关完整报告,请参阅名为的文件。 问题陈述 当前的任务是使用监督机器学习方法对手写数字进行分类。 这些数字属于0到9的类别。...
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本...
给定狗的图像,您的算法将确定犬的品种的估计值。 如果提供了人像,则代码将识别出类似狗的品种。 在探索用于分类和本地化的最新CNN模型的同时,您将就应用程序的用户体验做出重要的设计决策。 我们的目标是,通过...
给定狗的图像,您的算法将确定犬的品种的估计值。 如果提供了人像,则代码将识别出类似狗的品种。 在探索用于分类和本地化的最新CNN模型的同时,您将就应用程序的用户体验做出重要的设计决策。 我们的目标是,通过...
给定狗的图像,您的算法将确定犬的品种的估计值。 如果提供了人像,则代码将识别出类似狗的品种。 在探索用于分类和本地化的最新CNN模型的同时,您将就应用程序的用户体验做出重要的设计决策。 我们的目标是,通过...
该算法的主要缺点是,影响深远的独立性假设通常不准确,并且无法对正确的类概率产生良好的估计。 只要正确的类别比任何其他类别更有可能,朴素贝叶斯分类器将做出正确的MAP决策规则分类。 不管概率估计是轻微的还是...
给定一张狗的图像,您的算法将确定犬科动物品种的估计值。 如果提供人的图像,代码将识别相似的狗品种。 除了探索用于分类和本地化的最先进 CNN 模型之外,您还将针对应用程序的用户体验做出重要的设计决策。 我们...
给定狗的图像,我的算法将确定犬的品种的估计值。 如果提供了人像,则代码将识别出类似狗的品种。 除了探索最新的CNN模型进行分类外,我还为应用程序的用户体验做出了重要的设计决策。 通过完成本实验,我了解了将...
给定狗的图像,您的算法将确定犬的品种的估计值。 如果提供了人像,则代码将识别出类似狗的品种。 在探索最新的CNN模型进行分类的同时,您还将就应用程序的用户体验做出重要的设计决策。 我们的目标是,通过完成本...
PyTorch中的狗品种分类器 此存储库包含我对项目2的... 每个模型都有其优点和缺点,设计一个实际应用程序常常需要解决许多问题,而没有一个完美的答案。 但是,您不完善的解决方案仍会带来有趣的用户体验! 二手数据集
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。...
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。...