共15张图片点击查看

SAS® 文本挖掘器

0人点评  稳定性: 0  兼容性: 0  功能: 0  价格: 0  服务: 0 

用文本挖掘软件从非结构化数据中获取知识。当您具备了能够在网络和其它文本资源中动态地检索相关内容的能力后,为什么还要将自己束缚在分析传统的数据上呢?在巨量的文档

  • 标签:
  • 厂商:赛仕软件(北京)有限公司
  • 简介:用文本挖掘软件从非结构化数据中获取知识。当您具备了能够在网络和其它文本资源中动态地检索相关内容的能力后,为什么还要将自己束缚在分析传统的数据上呢?在巨量的文档集合中发现隐藏其中的新的思想和概念。在言语字词中识别出模式和相互间的关系。在结构化分析中增加文本挖掘洞察以提
  • 详情
  • 资费
  • 常见问题
  • 点评
  • 咨询
  • 售后

产品益处
自动了解更多

通过机器学习和自然语言处理技术,像主题识别或建立主题库这些耗时的人工活动可以自动地生成。对于大量的数据集合、数据评估可通过高性能处理程序在几秒或几分钟之间运行完成。因此您可以快速发现关键要素。


增加业务知识

交互式图形用户界面让识别相关性、修改算法、文件分配和资料分组等操作变得十分轻松。所以您可以用人类的洞察来引导机器学习结果。拓展文本挖掘的产出,超越基本的启用词和停用词,使用自定义实体和术语的趋势发现,自动化精确生成相关规则。

自顶往下进行钻取
SAS文本挖掘软件提供了可视化呈现整体数据挖掘过程的功能。动态向下钻取相关细节和探索不同术语之间的联系。交互式界面可轻松地对主题和概念进行调查,比较各个模型,确定性能表现最佳的模型。


确定什么是最热门的主题
文本被结构化为数字表示,对文档集合自动生成摘要,作为后续预测和数据挖掘建模的输入。您可以检查某个术语的应用随时间如何变化,您将会知道什么时候行动以及要做什么。

功能特色:

文本描绘功能帮助您发现文件集合中的倾向

使您可以描述与预测基于具体术语的某一目标变量。
目标变量为时间的请下,描绘节点会阐释出选择的时间段内的术语倾向,协助您可视化地评估新兴的、与减少的术语。
理清哪些术语比其他术语更有意义。
可视化地评估随时间变化出现的新兴的与较少的术语,包括术语之间的变化关系。
结果与图表可通过交互式链接来进行简易化探查操作。


自动化布尔逻辑体系规则生成功能造就更易用的内容分级功能

简化的分类方法开发能力与自动生成布尔逻辑体系规则的能力
结果规则可直接用于根据规则匹配的原则对文件进行分类。
 亦可允许规则被导出为布尔逻辑体系规则,从而成为SAS企业内容分类中一套更为智能的规则组。
包含了图形化输出,对培育与验证数据之间的规则进行比较。
通过以下方式启动积极学习能力:
 提供自动化、机器生成的分类与标题建议。可被用户重新进行描述。 
修正分配给规则的目标,同时当规则根据用户定义的修改意见进行重新生成时,模型可被升级。


高绩效文本挖掘方法可快速评估更大型的文件集合

仅适用于高绩效模式。
 在对称性多重处理(SMP)模式下进行处理,满足了启动的SAS服务器的多核处理器优点,减少了运算密集任务的处理时间。这类人物包括例如文本解析与奇异值分解(SVD)的生成。
 高绩效文本解析包括自动化词性与名词组检测、实体与多个单词术语鉴别、词干提取与同义词检测等。
 术语与频率权重能在默认设置中进行配置。
 高绩效SVD转换功能减少了文本集合,形成了数值化、结构化的表达方式。SVD转换输出可被用作高绩效数据挖掘节点或任何其他分析的输入。
 高绩效目标导向型的权重可用于更为精确的分类目标预估。
 图形化与表格化的输出可在一个集合内评估术语以及它们的分布情况。
 启用了大规模文本数据评分功能。


针对文本数据处理的用户友好、灵活的界面

为了类似结果的简化,可以将多个题目整合为一个用户题目。
 使用标题显示功能来展示文件术语/所有属于,标亮指出该文件被分配为某一特定标题的原因。
 使用浏览模式来阐释单一文件内或某一标题内的术语,或对文本文件进行分类。
 利用拥有超过2,000个术语与预分配极性配重、并被作为样本数据组的AFFIN适用情绪列表,令您获取文件级的情绪洞察能力。
 修改、存储并分享文本挖掘分析的工艺流程图表。
 在节点中添加表格并置换表格(从之前的工作成果中),从而更好地控制表格导入能力。
 通过定制化的算法或发布针对预测建模的用户编写的新业务规则,进一步扩展文本节点。
 决定在下一步处理中涵盖哪些文件语言。遵从Windows平台的接入标准。接入属性应符合根据美国政府在1973年美国复兴法案第508节规定的美国电子信息技术标准。


集成文件过滤功能

通过权重、集成化拼写检查与定性数据转换,启动高级过滤功能。该功能可将复杂的维度缩减技术用于压缩格式。
 创建同义数据组,并可将提前定义的同义词导入到文本过滤节点,从而改善现有资产的重复利用性。


可视化结果分析

使用概念链接图表来进行结果的可视化分析,并可以高效地探查语句间的关系。
 使用交互式图表与重点相关人员来沟通结果。
 使用图表可聚集结果、导引标题评估,并对语句之间的关系进行链接。
 使用接续图形与链接文件规则表来探查生成的布尔逻辑体系规则。
选择预定义实体选项,客户自定义或根据实际情况与事件的提取来创建自定义实体
 定义您自己的多词语术语(类似“鼠标拖曳”之类的短语)。
 针对地址、公司、日期、电话号码、SSN、时间与其他选项,可以从18个预定义实体定义中选择其中一个,从而确保由输入内容进行的提取。
 从文本输入中创建自定义实体用于提取,包括使用SAS文本挖掘器附加组件专用SAS概念创建功能的预定义实体列表(例如,定义区或产品代码)。


针对从网络或内部文件系统导入文本的交互式界面

 让您得以动态地从某一目录或网页包含的文件上创建数据组。
 可接入多种格式的文本数据,包括PDFs、Microsoft Word、扩展的ASCII文本、HTML、微软Office格式、电子数据表、演示文稿、电子邮件与数据库格式。
 提取、转换及加载文本数据到SAS数据组用于数据挖掘。
 可以接受其他特定专属格式,并将格式进行转换。同时可以从文件中过滤或提取文本,配置一份复制件到普通文件中,并将数据传递给SAS。
 确认每份文件的语言,并将其转代码为会话编码格式。


多种语言的本地支持

全面支持阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、匈牙利语、印尼语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、西班牙语、瑞典语、泰语、土耳其语与越南语。包含中文简体与繁体、巴黎方言与加拿大法语、欧式与其他大陆的德语、新挪威语与波克默尔挪威语、葡萄牙葡语与巴西葡语以及西班牙西语与南美洲西语。
 您可以通过预定义的输入变量来选择需要的语种。