共15张图片点击查看

SAS®可视化数据挖掘和机器学习 SAS® Visual Data Mining and Machine Learning

0人点评  稳定性: 0  兼容性: 0  功能: 0  价格: 0  服务: 0 

单一直观的编程环境、创新算法和快速内存处理。 SAS可视化数据挖掘和机器学习(SAS Visual Data Mining and Machine Learning) 解决方案消除数据量和种类、分析

  • 标签:
  • 厂商:赛仕软件(北京)有限公司
  • 简介:单一直观的编程环境、创新算法和快速内存处理。 SAS可视化数据挖掘和机器学习(SAS Visual Data Mining and Machine Learning) 解决方案消除数据量和种类、分析深度有限和计算瓶颈等相关障碍,从而显著提高生产效率,更快获得更深入的洞察。
  • 详情
  • 资费
  • 常见问题
  • 点评
  • 咨询
  • 售后

快速解决复杂的分析问题

预测建模和机器学习功能基于我们的新型内存平台SAS® Viya™,将性能提高到新的水平。 内存数据持久化,迭代分析过程中不必多次加载数据。多个用户可以轻松协作,利用相同原始数据同时建模。分析建模的处理时间只需几秒钟或几分钟 – 而不是几小时 – 比以往更快地找到解决问题的方法。

在开放平台上利用强大的SAS®分析

不知道SAS代码? 没问题。您的开源编程技术足以体验SAS高级分析的强大能力。无论使用Python笔记本、Java客户端还是Lua脚本接口,都可以在我们世界一流的治理环境下,使用您喜欢的语言调用SAS分析。利用REST API,可在自定义应用中加入强大的SAS分析 (SAS Analytics)。

探索多种方法迅速找到最佳解决方案
性能优异的分布式分析引擎和机器学习管道功能丰富的模块,便于快速轻松地探索和对比多个场景。自动调节功能可以测试集成环境中的不同场景,确定表现最好的模型,找到准确的答案。

提高数据科学家的工作效率
解决方案单一集成式内存环境,极大地提高数据科学家和其他专业分析师的工作效率。他们可以访问和准备数据,进行探索分析,构建和对比机器学习模型,生成部署预测模型的评分代码。他们可以比以往任何时候更快地完成所有这些工作。

利用图形界面支持常见的机器学习任务

基于Web的编程环境提供了直观的图形界面,便于配置常见的机器学习任务。自动生成之后用于批处理和自动化的相关SAS代码。用户可在这种环境下共享数据源和代码片段,极大地促进协作。

 

功能特色:

交互式分布内存计算基于web的编程环境

低维护基于web的编程界面。
互动点击式机器学习任务工作流程。
生成快速入门SAS代码,自动化完成机器学习任务。
协作环境中便于共享数据、代码片段和最佳实践。


高度扩展的内存分析处理

分布式内存处理大型数据集复杂的分析计算,给出的延迟时间短。
分析任务连在一起组成单一内存作业,无需重新加载数据或将中间结果写入磁盘。
大量用户可并行访问内存中的同一数据,从而提高效率。
只要需要,数据和中间结果可以一直保留在内存中,减少处理延迟。
内置工作负载管理确保有效地利用计算资源。
内置故障切换管理保证完成提交的作业。


分析数据准备

分布式SAS数据步语言:
SAS数据步代码在分布式内存计算环境下并行运行。
控制每个执行节点的并行级和接入的节点数量。      
数据汇总:
通过并行处理支持大规模数据探索和汇总。
生成平均值、最小值、最大值、极差、分散度和集中度测量值,以及变量的基数、总数和水平等数据。
支持数据分段。
抽样:
支持随机和分层抽样。
支持罕见事件过采样。
支持指标变量采样记录。


数据探索、变量设计和降维

高性能数据分箱:
等宽分箱方法。
Winsorized分箱方法和Winsorized统计。
伪分位数分箱方法。
计算证据权重(WOE)和信息值(IV)。
根据所选分箱方法给出映射表。
生成分箱基本统计信息表。
柱状图表显示输出的映射统计量。
高性能数据补缺:
利用用户指定值、平均值、伪中位数和介于最大值与最小值之间的随机值,大规模插补特征缺失值。
连续变量和分类特征大规模降维:
结构化输入变量降维,选择原始特征子集,最大化观测模型的预测能力。
通过指定一组变量共同解释最大数据方差(协方差分析),从而实现无指导的变量筛选。
支持分布式计算,以及CORR、COV或SSCP矩阵的输出。
支持分类变量和连续变量输入。
支持主效应和交叉效应。
提供中间结果数据集用于后续分析。
大规模主成分分析(PCA):
支持特征值分解、NIPALS和ITERGS算法。
输出观测的主成分评分。
生成碎石图和轮廓图。
无指导学习聚类分析:
根据连续变量和名义变量进行K均值聚类。
计算相似变量不同距离。
自动确定最合适的聚类数目。
输出聚类成员和观测的距离测量值。
决策树:
基于C4.5算法。
支持具有分类特征和数值特征的分类树和回归树。
支持成本复杂性和降低错误率剪枝方法。
自动修剪并基于保留数据选择最终树。
自动处理缺失值,包括替代分支规则。
自动模型拟合评估,包括基于模型(再代入)统计。


利用SAS®可视化建模统计工具(含)算法开发模型

线性回归模型。
逻辑回归模型。
广义线性模型。
非线性回归模型。
分位数回归模型。
预测的偏最小二乘回归模型。


先进机器学习算法模型开发

二元、名义标签和区间标签随机森林:
自动集成决策树预测单个目标。
自动分布自变量训练。
自动智能调试参数集确定最佳模型。
自动生成给出评分的SAS代码。
梯度提升二元、名义标签和区间标签:
自动迭代搜索与选定标签变量相关的最佳数据分区。
自动生成最终监督模式的加权平均值。
自动停止基于验证标准的数据评分,避免过度拟合。
自动生成给出评分的SAS代码。   
二元、名义标签和区间标签神经网络:
智能设定神经网络的大部分参数,如激活参数和误差参数。
定制神经网络架构和权重。
利用任意隐层数量支持深度学习。
自动提前终止集外验证,避免过度拟合。
自动智能调试参数集,确定最佳模型。
自动生成给出评分的SAS代码。   
二元标签支持向量机:
使用线性和多项式核函数训练模型。
可以采用内点法和有效集法。
支持数据分区进行模型验证。
支持交叉验证进行惩罚函数选择。
自动生成给出评分的SAS代码。   
因子分解机:
基于用户ID和项目打分稀疏矩阵开发推荐系统。
采用成对交互张量分解。
包括附加分类和数值输入特征提高模型精度。
增压模型配有时间戳、人口数据和上下文信息。
支持热重启,因此可利用新交易更新模型,不需要完全重新训练。
自动生成给出评分的SAS代码。   
网络分析和社区检测:
利用图论和网络分析算法增强数据挖掘和机器学习。
利益实体间采用成对交互。
无假设增加网络可能产生的检测方法。
基于交互频率的强度模拟网络链接权重。


综合文本分析

支持13种开箱即用母语:英语、德语、法语、意大利语、西班牙语、葡萄牙语、荷兰语、俄语、芬兰语、土耳其语、日语、汉语和韩语。
自动进行词性标注(系统中定义了15种以上词性)。
支持抽取预定义选项中的标准实体:如位置、时间、日期和地址等。
检测名词词组和多词词组,生成单个词条来处理。
检测不同词干,无需人工干预。
借助同义词侦测自动发现词条变形。
选择词频加权抑制文档中出现过多词条。
采用词条加权识别文档集合中相对于其他词条更重要的词条。
采用默认启用词表和停用词表管理用于解析和下游处理的词条。
机器学习生成的话题是词条文档矩阵文本处理所得结果,可作为文档集合的结构化数值表达式。
采用相关语义合成生成的话题作为机器学习模型的输入。
自动生成SAS给出文档评分的代码,包括文本预处理和准确结果的解析。
支持从大规模数据中抽取布尔规则。
通过分析文本语料自动生成一套布尔规则。


模型评估和评分

自动计算二元、名义标签或区间标签选定模型的监督学习模型性能统计数据。
生成区间和分类目标的提升表,以及分类目标的ROC表。
自动生成模型评分的SAS数据步代码。
采用评分逻辑训练、保留数据和新数据。
对新的文本数据进行评分。