SAS®可视化数据挖掘和机器学习 SAS® Visual Data Mining and Machine Learning

: 共 0人点评稳定性: 0 兼容性: 0 功能: 0 价格: 0 服务: 0

单一直观的编程环境、创新算法和快速内存处理。 SAS可视化数据挖掘和机器学习（SAS Visual Data Mining and Machine Learning）解决方案消除数据量和种类、分析

标签：
厂商：赛仕软件(北京)有限公司
简介：单一直观的编程环境、创新算法和快速内存处理。 SAS可视化数据挖掘和机器学习（SAS Visual Data Mining and Machine Learning）解决方案消除数据量和种类、分析深度有限和计算瓶颈等相关障碍，从而显著提高生产效率，更快获得更深入的洞察。

详情
资费
常见问题
点评
咨询
售后

快速解决复杂的分析问题

预测建模和机器学习功能基于我们的新型内存平台SAS® Viya™，将性能提高到新的水平。内存数据持久化，迭代分析过程中不必多次加载数据。多个用户可以轻松协作，利用相同原始数据同时建模。分析建模的处理时间只需几秒钟或几分钟 – 而不是几小时 – 比以往更快地找到解决问题的方法。

在开放平台上利用强大的SAS®分析

不知道SAS代码? 没问题。您的开源编程技术足以体验SAS高级分析的强大能力。无论使用Python笔记本、Java客户端还是Lua脚本接口，都可以在我们世界一流的治理环境下，使用您喜欢的语言调用SAS分析。利用REST API，可在自定义应用中加入强大的SAS分析 (SAS Analytics)。

探索多种方法迅速找到最佳解决方案
性能优异的分布式分析引擎和机器学习管道功能丰富的模块，便于快速轻松地探索和对比多个场景。自动调节功能可以测试集成环境中的不同场景，确定表现最好的模型，找到准确的答案。

提高数据科学家的工作效率
解决方案单一集成式内存环境，极大地提高数据科学家和其他专业分析师的工作效率。他们可以访问和准备数据，进行探索分析，构建和对比机器学习模型，生成部署预测模型的评分代码。他们可以比以往任何时候更快地完成所有这些工作。

利用图形界面支持常见的机器学习任务

基于Web的编程环境提供了直观的图形界面，便于配置常见的机器学习任务。自动生成之后用于批处理和自动化的相关SAS代码。用户可在这种环境下共享数据源和代码片段，极大地促进协作。

功能特色：

交互式分布内存计算基于web的编程环境

低维护基于web的编程界面。
互动点击式机器学习任务工作流程。
生成快速入门SAS代码，自动化完成机器学习任务。
协作环境中便于共享数据、代码片段和最佳实践。

高度扩展的内存分析处理

分布式内存处理大型数据集复杂的分析计算，给出的延迟时间短。
分析任务连在一起组成单一内存作业，无需重新加载数据或将中间结果写入磁盘。
大量用户可并行访问内存中的同一数据，从而提高效率。
只要需要，数据和中间结果可以一直保留在内存中，减少处理延迟。
内置工作负载管理确保有效地利用计算资源。
内置故障切换管理保证完成提交的作业。

分析数据准备

分布式SAS数据步语言：
SAS数据步代码在分布式内存计算环境下并行运行。
控制每个执行节点的并行级和接入的节点数量。
数据汇总：
通过并行处理支持大规模数据探索和汇总。
生成平均值、最小值、最大值、极差、分散度和集中度测量值，以及变量的基数、总数和水平等数据。
支持数据分段。
抽样：
支持随机和分层抽样。
支持罕见事件过采样。
支持指标变量采样记录。

数据探索、变量设计和降维

高性能数据分箱：
等宽分箱方法。
Winsorized分箱方法和Winsorized统计。
伪分位数分箱方法。
计算证据权重(WOE)和信息值(IV)。
根据所选分箱方法给出映射表。
生成分箱基本统计信息表。
柱状图表显示输出的映射统计量。
高性能数据补缺：
利用用户指定值、平均值、伪中位数和介于最大值与最小值之间的随机值，大规模插补特征缺失值。
连续变量和分类特征大规模降维：
结构化输入变量降维，选择原始特征子集，最大化观测模型的预测能力。
通过指定一组变量共同解释最大数据方差(协方差分析),从而实现无指导的变量筛选。
支持分布式计算，以及CORR、COV或SSCP矩阵的输出。
支持分类变量和连续变量输入。
支持主效应和交叉效应。
提供中间结果数据集用于后续分析。
大规模主成分分析(PCA):
支持特征值分解、NIPALS和ITERGS算法。
输出观测的主成分评分。
生成碎石图和轮廓图。
无指导学习聚类分析：
根据连续变量和名义变量进行K均值聚类。
计算相似变量不同距离。
自动确定最合适的聚类数目。
输出聚类成员和观测的距离测量值。
决策树：
基于C4.5算法。
支持具有分类特征和数值特征的分类树和回归树。
支持成本复杂性和降低错误率剪枝方法。
自动修剪并基于保留数据选择最终树。
自动处理缺失值，包括替代分支规则。
自动模型拟合评估，包括基于模型(再代入)统计。

利用SAS®可视化建模统计工具(含)算法开发模型

线性回归模型。
逻辑回归模型。
广义线性模型。
非线性回归模型。
分位数回归模型。
预测的偏最小二乘回归模型。

先进机器学习算法模型开发

二元、名义标签和区间标签随机森林：
自动集成决策树预测单个目标。
自动分布自变量训练。
自动智能调试参数集确定最佳模型。
自动生成给出评分的SAS代码。
梯度提升二元、名义标签和区间标签：
自动迭代搜索与选定标签变量相关的最佳数据分区。
自动生成最终监督模式的加权平均值。
自动停止基于验证标准的数据评分，避免过度拟合。
自动生成给出评分的SAS代码。
二元、名义标签和区间标签神经网络：
智能设定神经网络的大部分参数，如激活参数和误差参数。
定制神经网络架构和权重。
利用任意隐层数量支持深度学习。
自动提前终止集外验证，避免过度拟合。
自动智能调试参数集，确定最佳模型。
自动生成给出评分的SAS代码。
二元标签支持向量机：
使用线性和多项式核函数训练模型。
可以采用内点法和有效集法。
支持数据分区进行模型验证。
支持交叉验证进行惩罚函数选择。
自动生成给出评分的SAS代码。
因子分解机：
基于用户ID和项目打分稀疏矩阵开发推荐系统。
采用成对交互张量分解。
包括附加分类和数值输入特征提高模型精度。
增压模型配有时间戳、人口数据和上下文信息。
支持热重启，因此可利用新交易更新模型，不需要完全重新训练。
自动生成给出评分的SAS代码。
网络分析和社区检测：
利用图论和网络分析算法增强数据挖掘和机器学习。
利益实体间采用成对交互。
无假设增加网络可能产生的检测方法。
基于交互频率的强度模拟网络链接权重。

综合文本分析

支持13种开箱即用母语：英语、德语、法语、意大利语、西班牙语、葡萄牙语、荷兰语、俄语、芬兰语、土耳其语、日语、汉语和韩语。
自动进行词性标注(系统中定义了15种以上词性)。
支持抽取预定义选项中的标准实体：如位置、时间、日期和地址等。
检测名词词组和多词词组，生成单个词条来处理。
检测不同词干，无需人工干预。
借助同义词侦测自动发现词条变形。
选择词频加权抑制文档中出现过多词条。
采用词条加权识别文档集合中相对于其他词条更重要的词条。
采用默认启用词表和停用词表管理用于解析和下游处理的词条。
机器学习生成的话题是词条文档矩阵文本处理所得结果，可作为文档集合的结构化数值表达式。
采用相关语义合成生成的话题作为机器学习模型的输入。
自动生成SAS给出文档评分的代码，包括文本预处理和准确结果的解析。
支持从大规模数据中抽取布尔规则。
通过分析文本语料自动生成一套布尔规则。

模型评估和评分

自动计算二元、名义标签或区间标签选定模型的监督学习模型性能统计数据。
生成区间和分类目标的提升表，以及分类目标的ROC表。
自动生成模型评分的SAS数据步代码。
采用评分逻辑训练、保留数据和新数据。
对新的文本数据进行评分。

本类推荐

全站推荐

点击排行