java情感分析代码 java代码分析

大数据分析工具详尽介绍&数据分析算法

大数据分析工具详尽介绍数据分析算法

成都创新互联专注于中大型企业的成都网站制作、网站建设和网站改版、网站营销服务,追求商业策划与数据分析、创意艺术与技术开发的融合,累计客户上千余家,服务满意度达97%。帮助广大客户顺利对接上互联网浪潮,准确优选出符合自己需要的互联网运用,我们将一直专注成都品牌网站建设和互联网程序开发,在前进的路上,与客户一起成长!

1、 Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

2、 HPCC

HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成:

1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;

5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。

3、 Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。

4、 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

5、 RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

功能和特点

免费提供数据挖掘技术和库

100%用Java代码(可运行在操作系统)

数据挖掘过程简单,强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图,确保有效和透明的数据

图形用户界面的互动原型

命令行(批处理模式)自动大规模应用

Java API(应用编程接口)

简单的插件和推广机制

强大的可视化引擎,许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。

6、 Pentaho BI

Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行,主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;

Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。

7、 SAS Enterprise Miner

§ 支持整个数据挖掘过程的完备工具集

§ 易用的图形界面,适合不同类型的用户快速建模

§ 强大的模型管理和评估功能

§ 快速便捷的模型发布机制, 促进业务闭环形成

数据分析算法

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了。

KNN

K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接

Naive Bayes

朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

SVM

支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接

Apriori

Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接

PageRank

网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接

RandomForest

随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接

Artificial Neural Network

“神经网络”这个词实际是来自于生物学,而我们所指的神经网络正确的名称应该是“人工神经网络(ANNs)”。

人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值,以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统,可以发展知识,以致超过设计者原有的知识水平。通常,它的学习训练方式可分为两种,一种是有监督或称有导师的学习,这时利用给定的样本标准进行分类或模仿;另一种是无监督学习或称无为导师学习,这时,只规定学习方式或某些规则,则具体的学习内容随系统所处环境 (即输入信号情况)而异,系统可以自动发现环境特征和规律性,具有更近似人脑的功能。

目前常用的自然语言处理开源项目/开发包有哪些?

中文主要有:NLTK,HanLP,Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开发语言:Java,网址:hankcs/HanLP,开发机构:大快公司,协议:Apache-2.0功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具。

GitHub上面有哪些经典的java框架源码

Bazel:来自Google的构建工具,可以快速、可靠地构建代码。官网

Gradle:使用Groovy(非XML)进行增量构建,可以很好地与Maven依赖管理配合工作。官网

Buck:Facebook构建工具。官网

字节码操作

编程方式操作字节码的开发库。

ASM:通用底层字节码操作和分析开发库。官网

Byte Buddy:使用流式API进一步简化字节码生成。官网

Byteman:在运行时通过DSL(规则)操作字节码进行测试和故障排除。官网

Javassist:一个简化字节码编辑尝试。官网

集群管理

在集群内动态管理应用程序的框架。

Apache Aurora:Apache Aurora是一个Mesos框架,用于长时间运行服务和定时任务(cron job)。官网

Singularity:Singularity是一个Mesos框架,方便部署和操作。它支持Web Service、后台运行、调度作业和一次性任务。官网

代码分析

测量代码指标和质量工具。

Checkstyle:代码编写规范和标准静态分析工具。官网

Error Prone:将常见编程错误作为运行时错误报告。官网

FindBugs:通过字节码静态分析查找隐藏bug。官网

jQAssistant:使用基于Neo4J查询语言进行代码静态分析。官网

PMD:对源代码分析查找不良的编程习惯。官网

SonarQube:通过插件集成其它分析组件,对过去一段时间内的数据进行统计。官网

编译器生成工具

用来创建解析器、解释器或编译器的框架。

ANTLR:复杂的全功能自顶向下解析框架。官网

JavaCC:JavaCC是更加专门的轻量级工具,易于上手且支持语法超前预测。官网

外部配置工具

支持外部配置的开发库。

config:针对JVM语言的配置库。官网

owner:减少冗余配置属性。官网

约束满足问题求解程序

帮助解决约束满足问题的开发库。

Choco:可直接使用的约束满足问题求解程序,使用了约束规划技术。官网

JaCoP:为FlatZinc语言提供了一个接口,可以执行MiniZinc模型。官网

OptaPlanner:企业规划与资源调度优化求解程序。官网

Sat4J:逻辑代数与优化问题最先进的求解程序。官网

持续集成

Bamboo:Atlassian解决方案,可以很好地集成Atlassian的其他产品。可以选择开源许可,也可以购买商业版。官网

CircleCI:提供托管服务,可以免费试用。官网

Codeship:提供托管服务,提供有限的免费模式。官网

fabric8:容器集成平台。官网

Go:ThoughtWork开源解决方案。官网

Jenkins:支持基于服务器的部署服务。官网

TeamCity:JetBrain的持续集成解决方案,有免费版。官网

Travis:通常用作开源项目的托管服务。官网

Buildkite: 持续集成工具,用简单的脚本就能设置pipeline,而且能快速构建,可以免费试用。官网

CSV解析

简化CSV数据读写的框架与开发库

uniVocity-parsers:速度最快功能最全的CSV开发库之一,同时支持TSV与固定宽度记录的读写。官网

数据库

简化数据库交互的相关工具。

Apache Phoenix:HBase针对低延时应用程序的高性能关系数据库层。官网

Crate:实现了数据同步、分片、缩放、复制的分布式数据存储。除此之外还可以使用基于SQL的语法跨集群查询。官网

Flyway:简单的数据库迁移工具。官网

H2:小型SQL数据库,以可以作为内存数据库使用著称。官网

HikariCP:高性能JDBC连接工具。官网

JDBI:便捷的JDBC抽象。官网

Protobuf:Google数据交换格式。官网

SBE:简单二进制编码,是最快速的消息格式之一。官网

Wire:整洁轻量级协议缓存。官网

帮实现依赖翻转范式的开发库。 官网

Apache DeltaSpike:CDI扩展框架。官网

Dagger2:编译时注入框架,不需要使用反射。官网

Guice:可以匹敌Dagger的轻量级注入框架。官网

HK2:轻量级动态依赖注入框架。官网

开发流程增强工具

从最基本的层面增强开发流程。

ADT4J:针对代数数据类型的JSR-269代码生成器。官网

AspectJ:面向切面编程(AOP)的无缝扩展。官网

Auto:源代码生成器集合。官网

DCEVM:通过修改JVM在运行时支持对已加载的类进行无限次重定义。官网

HotswapAgent:支持无限次重定义运行时类与资源。官网

Immutables:类似Scala的条件类。官网

JHipster:基于Spring Boot与AngularJS应用程序的Yeoman源代码生成器。官网

JRebel:无需重新部署,可以即时重新加载代码与配置的商业软件。官网

Lombok:减少冗余的代码生成器。官网

Spring Loaded:类重载代理。官网

vert.x:多语言事件驱动应用框架。官网

分布式应用

用来编写分布式容错应用的开发库和框架。

Akka:用来编写分布式容错并发事件驱动应用程序的工具和运行时。官网

Apache Storm:实时计算系统。官网

Apache ZooKeeper:针对大型分布式系统的协调服务,支持分布式配置、同步和名称注册。官网

Hazelcast:高可扩展内存数据网格。官网

Hystrix:提供延迟和容错。官网

JGroups:提供可靠的消息传递和集群创建的工具。官网

Orbit:支持虚拟角色(Actor),在传统角色的基础上增加了另外一层抽象。官网

Quasar:为JVM提供轻量级线程和角色。官网

分布式数据库

对应用程序而言,在分布式系统中的数据库看起来就像是只有一个数据源。

Apache Cassandra:列式数据库,可用性高且没有单点故障。官网

Apache HBase:针对大数据的Hadoop数据库。官网

Druid:实时和历史OLAP数据存储,在聚集查询和近似查询方面表现不俗。官网

Infinispan:针对缓存的高并发键值对数据存储。官网

发布

以本机格式发布应用程序的工具。

Bintray:发布二进制文件版本控制工具。可以于Maven或Gradle一起配合使用。提供开源免费版本和几种商业收费版本。官网

Central Repository:最大的二进制组件仓库,面向开源社区提供免费服务。Apache Maven默认使用Central 官网Repository,也可以在所有其他构建工具中使用。

IzPack:为跨平台部署建立创作工具(Authoring Tool)。官网

JitPack:打包GitHub仓库的便捷工具。可根据需要构建Maven、Gradle项目,发布可立即使用的组件。官网

Launch4j:将JAR包装为轻量级本机Windows可执行程序。官网

Nexus:支持代理和缓存功能的二进制管理工具。官网

packr:将JAR、资源和JVM打包成Windows、Linux和Mac OS X本地发布文件。官网

文档处理工具

处理Office文档的开发库。

Apache POI:支持OOXML规范(XLSX、DOCX、PPTX)以及OLE2规范(XLS、DOC、PPT)。官网

documents4j:使用第三方转换器进行文档格式转换,转成类似MS Word这样的格式。官网

jOpenDocument:处理OpenDocument格式(由Sun公司提出基于XML的文档格式)。官网

函数式编程

函数式编程支持库。

Cyclops:支持一元(Monad)操作和流操作工具类、comprehension(List语法)、模式匹配、trampoline等特性。官网

Fugue:Guava的函数式编程扩展。官网

Functional Java:实现了多种基础和高级编程抽象,用来辅助面向组合开发(composition-oriented development)。官网

Javaslang:一个函数式组件库,提供持久化数据类型和函数式控制结构。官网

jOOλ:旨在填补Java 8 lambda差距的扩展,提供了众多缺失的类型和一组丰富的顺序流API。官网

游戏开发

游戏开发框架。

jMonkeyEngine:现代3D游戏开发引擎。官网

libGDX:全面的跨平台高级框架。官网

LWJGL:对OpenGL/CL/AL等技术进行抽象的健壮框架。官网

GUI

现代图形化用户界面开发库。

JavaFX:Swing的后继者。官网

Scene Builder:开发JavaFX应用的可视化布局工具。官网

高性能计算

涵盖了从集合到特定开发库的高性能计算相关工具。

Agrona:高性能应用中常见的数据结构和工具方法。官网

Disruptor:线程间消息传递开发库。官网

fastutil:快速紧凑的特定类型集合(Collection)。官网

GS Collections:受Smalltalk启发的集合框架。官网

HPPC:基础类型集合。官网

Javolution:实时和嵌入式系统的开发库。官网

JCTools:JDK中缺失的并发工具。官网

Koloboke:Hash set和hash map。官网

Trove:基础类型集合。官网

High-scale-bli:Cliff Click 个人开发的高性能并发库官网

IDE

简化开发的集成开发环境。

Eclipse:老牌开源项目,支持多种插件和编程语言。官网

IntelliJ IDEA:支持众多JVM语言,是安卓开发者好的选择。商业版主要针对企业客户。官网

NetBeans:为多种技术提供集成化支持,包括Java SE、Java EE、数据库访问、HTML5

Imgscalr:纯Java 2D实现,简单、高效、支持硬件加速的图像缩放开发库。官网

Picasso:安卓图片下载和图片缓存开发库。官网

Thumbnailator:Thumbnailator是一个高质量Java缩略图开发库。官网

ZXing:支持多种格式的一维、二维条形码图片处理开发库。官网

im4java: 基于ImageMagick或GraphicsMagick命令行的图片处理开发库,基本上ImageMagick能够支持的图片格式和处理方式都能够处理。官网

Apache Batik:在Java应用中程序以SVG格式显示、生成及处理图像的工具集,包括SVG解析器、SVG生成器、SVG DOM等模块,可以集成使用也可以单独使用,还可以扩展自定义的SVG标签。官网

JSON

简化JSON处理的开发库。

Genson:强大且易于使用的Java到JSON转换开发库。官网

Gson:谷歌官方推出的JSON处理库,支持在对象与JSON之间双向序列化,性能良好且可以实时调用。官网

Jackson:与GSON类似,在频繁使用时性能更佳。官网

LoganSquare:基于Jackson流式API,提供对JSON解析和序列化。比GSON与Jackson组合方式效果更好。官网

Fastjson:一个Java语言编写的高性能功能完善的JSON库。官网

Kyro:快速、高效、自动化的Java对象序列化和克隆库。官网

JVM与JDK

目前的JVM和JDK实现。

JDK 9:JDK 9的早期访问版本。官网

OpenJDK:JDK开源实现。官网

基于JVM的语言

除Java外,可以用来编写JVM应用程序的编程语言。

Scala:融合了面向对象和函数式编程思想的静态类型编程语言。官网

Groovy:类型可选(Optionally typed)的动态语言,支持静态类型和静态编译。目前是一个Apache孵化器项目。官网

Clojure:可看做现代版Lisp的动态类型语言。官网

Ceylon:RedHat开发的面向对象静态类型编程语言。官网

Kotlin:JetBrain针对JVM、安卓和浏览器提供的静态类型编程语言。官网

Xtend:一种静态编程语言,能够将其代码转换为简洁高效的Java代码,并基于JVM运行。官网

日志

记录应用程序行为日志的开发库。

Apache Log4j 2:使用强大的插件和配置架构进行完全重写。官网

kibana:分析及可视化日志文件。官网

Logback:强健的日期开发库,通过Groovy提供很多有趣的选项。官网

logstash:日志文件管理工具。官网

Metrics:通过JMX或HTTP发布参数,并且支持存储到数据库。官网

SLF4J:日志抽象层,需要与具体的实现配合使用。官网

机器学习

提供具体统计算法的工具。其算法可从数据中学习。

Apache Flink:快速、可靠的大规模数据处理引擎。官网

Apache Hadoop:在商用硬件集群上用来进行大规模数据存储的开源软件框架。官网

Apache Mahout:专注协同过滤、聚类和分类的可扩展算法。官网

Apache Spark:开源数据分析集群计算框架。官网

DeepDive:从非结构化数据建立结构化信息并集成到已有数据库的工具。官网

Deeplearning4j:分布式多线程深度学习开发库。官网

H2O:用作大数据统计的分析引擎。官网

Weka:用作数据挖掘的算法集合,包括从预处理到可视化的各个层次。官网

QuickML:高效机器学习库。官网、GitHub

消息传递

在客户端之间进行消息传递,确保协议独立性的工具。

Aeron:高效可扩展的单播、多播消息传递工具。官网

Apache ActiveMQ:实现JMS的开源消息代理(broker),可将同步通讯转为异步通讯。官网

Apache Camel:通过企业级整合模式(Enterprise Integration Pattern EIP)将不同的消息传输API整合在一起。官网

Apache Kafka:高吞吐量分布式消息系统。官网

Hermes:快速、可靠的消息代理(Broker),基于Kafka构建。官网

JBoss HornetQ:清晰、准确、模块化,可以方便嵌入的消息工具。官网

JeroMQ:ZeroMQ的纯Java实现。官网

Smack:跨平台XMPP客户端函数库。官网

Openfire:是开源的、基于XMPP、采用Java编程语言开发的实时协作服务器。 Openfire安装和使用都非常简单,并可利用Web界面进行管理。 官网GitHub

Spark:是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 官网 GitHub

Tigase: 是一个轻量级的可伸缩的 Jabber/XMPP 服务器。无需其他第三方库支持,可以处理非常高的复杂和大量的用户数,可以根据需要进行水平扩展。 官网

杂项

未分类其它资源。

Design Patterns:实现并解释了最常见的设计模式。官网

Jimfs:内存文件系统。官网

Lanterna:类似curses的简单console文本GUI函数库。官网

LightAdmin:可插入式CRUD UI函数库,可用来快速应用开发。官网

OpenRefine:用来处理混乱数据的工具,包括清理、转换、使用Web Service进行扩展并将其关联到数据库。官网

RoboVM:Java编写原生iOS应用。官网

Quartz:强大的任务调度库.官网

应用监控工具

监控生产环境中应用程序的工具。

AppDynamics:性能监测商业工具。官网

JavaMelody:性能监测和分析工具。官网

Kamon:Kamon用来监测在JVM上运行的应用程序。官网

New Relic:性能监测商业工具。官网

SPM:支持对JVM应用程序进行分布式事务追踪的性能监测商业工具。官网

Takipi:产品运行时错误监测及调试商业工具。官网

原生开发库

用来进行特定平台开发的原生开发库。

JNA:不使用JNI就可以使用原生开发库。此外,还为常见系统函数提供了接口。官网

自然语言处理

用来专门处理文本的函数库。

Apache OpenNLP:处理类似分词等常见任务的工具。官网

CoreNLP:斯坦佛CoreNLP提供了一组基础工具,可以处理类似标签、实体名识别和情感分析这样的任务。官网

LingPipe:一组可以处理各种任务的工具集,支持POS标签、情感分析等。官网

Mallet:统计学自然语言处理、文档分类、聚类、主题建模等。官网

网络

网络编程函数库。

Async Http Client:异步HTTP和WebSocket客户端函数库。官网

Grizzly:NIO框架,在Glassfish中作为网络层使用。官网

Netty:构建高性能网络应用程序开发框架。官网

OkHttp:一个Android和Java应用的HTTP+SPDY客户端。官网

Undertow:基于NIO实现了阻塞和非阻塞API的Web服务器,在WildFly中作为网络层使用。官网

ORM

处理对象持久化的API。

Ebean:支持快速数据访问和编码的ORM框架。官网

EclipseLink:支持许多持久化标准,JPA、JAXB、JCA和SDO。官网

Hibernate:广泛使用、强健的持久化框架。Hibernate的技术社区非常活跃。官网

MyBatis:带有存储过程或者SQL语句的耦合对象(Couples object)。官网

OrmLite:轻量级开发包,免除了其它ORM产品中的复杂性和开销。官网

Nutz:另一个SSH。官网,Github

JFinal:JAVA WEB + ORM框架。官网,Github

PDF

用来帮助创建PDF文件的资源。

Apache FOP:从XSL-FO创建PDF。官网

Apache PDFBox:用来创建和操作PDF的工具集。官网

DynamicReports:JasperReports的精简版。官网

flyingsaucer:XML/XHTML和CSS 2.1渲染器。官网

iText:一个易于使用的PDF函数库,用来编程创建PDF文件。注意,用于商业用途时需要许可证。官网

JasperReports:一个复杂的报表引擎。官网

性能分析

性能分析、性能剖析及基准测试工具。

jHiccup:提供平台中JVM暂停的日志和记录。官网

JMH:JVM基准测试工具。官网

JProfiler:商业分析器。官网

LatencyUtils:测量和报告延迟的工具。官网

VisualVM:对运行中的应用程序信息提供了可视化界面。官网

YourKit Java Profiler:商业分析器。官网

响应式开发库

用来开发响应式应用程序的开发库。

Reactive Streams:异步流处理标准,支持非阻塞式反向压力(backpressure)。官网

Reactor:构建响应式快速数据(fast-data)应用程序的开发库。官网

RxJava:通过JVM可观察序列(observable sequence)构建异步和基于事件的程序。官网

REST框架

用来创建RESTful 服务的框架。

Dropwizard:偏向于自己使用的Web框架。用来构建Web应用程序,使用了Jetty、Jackson、Jersey和Metrics。官网

Feign:受Retrofit、JAXRS-2.0和WebSocket启发的HTTP客户端连接器(binder)。官网

Jersey:JAX-RS参考实现。官网

RESTEasy:经过JAX-RS规范完全认证的可移植实现。官网

RestExpress:一个Java类型安全的REST客户端。官网

RestX:基于注解处理和编译时源码生成的框架。官网

Retrofit:类型安全的REST客户端。官网

Spark:受到Sinatra启发的Java REST框架。官网

Swagger:Swagger是一个规范且完整的框架,提供描述、生产、消费和可视化RESTful Web Service。官网

Blade:国人开发的一个轻量级的MVC框架. 它拥有简洁的代码,优雅的设计。官网

科学计算与分析

用于科学计算和分析的函数库。

DataMelt:用于科学计算、数据分析及数据可视化的开发环境。官网

JGraphT:支持数学图论对象和算法的图形库。官网

JScience:用来进行科学测量和单位的一组类。官网

搜索引擎

文档索引引擎,用于搜索和分析。

Apache Solr:一个完全的企业搜索引擎。为高吞吐量通信进行了优化。官网

Elasticsearch:一个分布式、支持多租户(multitenant)全文本搜索引擎。提供了RESTful Web接口和无schema的JSON文档。官网

Apache Lucene:是一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。官网

安全

用于处理安全、认证、授权或会话管理的函数库。

Apache Shiro:执行认证、授权、加密和会话管理。官网

Bouncy Castle,涵盖了从基础的帮助函数到PGP/SMIME操作。官网:多途加密开发库。支持JCA提供者(JCA provider)

Cryptomator:在云上进行客户端跨平台透明加密。官网

Keycloak:为浏览器应用和RESTful Web Service集成SSO和IDM。目前还处于beta版本,但是看起来非常有前途。官网

PicketLink:PicketLink是一个针对Java应用进行安全和身份认证管理的大型项目(Umbrella Project)。官网

序列化

用来高效处理序列化的函数库。

FlatBuffers:高效利用内存的序列化函数库,无需解包和解析即可高效访问序列化数据。官网

Kryo:快速、高效的对象图形序列化框架。官网

FST:提供兼容JDK的高性能对象图形序列化。官网

MessagePack:一种高效的二进制序列化格式。官网

应用服务器

用来部署应用程序的服务器。

Apache Tomcat:针对Servlet和JSP的应用服务器,健壮性好且适用性强。官网

Apache TomEE:Tomcat加Java EE。官网

Jetty:轻量级、小巧的应用服务器,通常会嵌入到项目中。官网

WebSphere Liberty:轻量级、模块化应用服务器,由IBM开发。官网

WildFly:之前被称作JBoss,由Red Hat开发。支持很多Java EE功能。官网

模板引擎

在模板中替换表达式的工具。

Apache Velocity:提供HTML页面模板、email模板和通用开源代码生成器模板。官网

FreeMarker:通用模板引擎,不需要任何重量级或自己使用的依赖关系。官网

Handlebars.java:使用Java编写的模板引擎,逻辑简单,支持语义扩展(semantic Mustache)。官网

Thymeleaf:旨在替换JSP,支持XML文件的工具。官网

测试

测试内容从对象到接口,涵盖性能测试和基准测试工具。

Apache JMeter:功能性测试和性能评测。官网

Arquillian:集成测试和功能行测试平台,集成Java EE容器。官网

AssertJ:支持流式断言提高测试的可读性。官网

Awaitility:用来同步异步操作的DSL。官网

Cucumber:BDD测试框架。官网

Gatling:设计为易于使用、可维护的和高性能负载测试工具。官网

Hamcrest:可用来灵活创建意图(intent)表达式的匹配器。官网

JMockit:用来模拟静态、final方法等。官网

JUnit:通用测试框架。官网

Mockito:在自动化单元测试中创建测试对象,为TDD或BDD提供支持。官网

PowerMock: 支持模拟静态方法、构造函数、final类和方法、私有方法以及移除静态初始化器的模拟工具。官网

REST Assured:为REST/HTTP服务提供方便测试的Java DSL。官网

Selenide:为Selenium提供精准的周边API,用来编写稳定且可读的UI测试。官网

Selenium:为Web应用程序提供可移植软件测试框架。官网

Spock:JUnit-compatible framework featuring an expressive Groovy-derived specification language.官网兼容JUnit框架,支持衍生的Groovy范的语言。

TestNG:测试框架。官网

Truth:Google的断言和命题(proposition)框架。官网

Unitils:模块化测试函数库,支持单元测试和集成测试。官网

WireMock:Web Service测试桩(Stub)和模拟函数。官网

通用工具库

通用工具类函数库。

Apache Commons:提供各种用途的函数,比如配置、验证、集合、文件上传或XML处理等。官网

args4j:命令行参数解析器。官网

CRaSH:为运行进行提供CLI。官网

Gephi:可视化跨平台网络图形化操作程序。官网

Guava:集合、缓存、支持基本类型、并发函数库、通用注解、字符串处理、I/O等。官网

JADE:构建、调试多租户系统的框架和环境。官网

javatuples:正如名字表示的那样,提供tuple支持。尽管目前tuple的概念还有留有争议。官网

JCommander:命令行参数解析器。官网

Protégé:提供存在论(ontology)编辑器以及构建知识系统的框架。官网

网络爬虫

用于分析网站内容的函数库。

Apache Nutch:可用于生产环境的高度可扩展、可伸缩的网络爬虫。官网

Crawler4j:简单的轻量级网络爬虫。官网

JSoup:刮取、解析、操作和清理HTML。官网

Web框架

用于处理Web应用程序不同层次间通讯的框架。

Apache Tapestry:基于组件的框架,使用Java创建动态、强健的、高度可扩展的Web应用程序。官网

Apache Wicket:基于组件的Web应用框架,与Tapestry类似带有状态显示GUI。官网

Google Web Toolkit:一组Web开发工具集,包含在客户端将Java代码转为JavaScript的编译器、XML解析器、RCP 官网API、JUnit集成、国际化支持和GUI控件。

Grails:Groovy框架,旨在提供一个高效开发环境,使用约定而非配置、没有XML并支持混入(mixin)。官网

Ninja:Java全栈Web开发框架。非常稳固、快速和高效。官网

Pippo:小型、高度模块化的类Sinatra框架。官网

Play:使用约定而非配置,支持代码热加载并在浏览器中显示错误。官网

PrimeFaces:JSF框架,提供免费和带支持的商业版本。包括若干前端组件。官网

Ratpack:一组Java开发函数库,用于构建快速、高效、可扩展且测试完备的HTTP应用程序。官网

Spring Boot:微框架,简化了Spring新程序的开发过程。官网

Spring:旨在简化Java EE的开发过程,提供依赖注入相关组件并支持面向切面编程。官网

Vaadin:基于GWT构建的事件驱动框架。使用服务端架构,客户端使用Ajax。官网

Blade:国人开发的一个轻量级的MVC框架. 它拥有简洁的代码,优雅的设计。官网

业务流程管理套件

流程驱动的软件系统构建。

jBPM:非常灵活的业务流程管理框架,致力于构建开发与业务分析人员之间的桥梁。官网

Activity:轻量级工作流和业务流程管理框架。官网 github

资源

社区

有没有中文情感分析 java开源包

情感分析可以细分成几个点:

1. 主客观

2. 观点句提取(评价对象--情感词)

3. 情感极性判断

看看你要做的到底是哪个方面?

其中2是难度比较大的,特别是评价对象的提取。

都可以转化为分类问题,2可以参考一下淘宝的。


名称栏目:java情感分析代码 java代码分析
文章地址:http://scyanting.com/article/ddisehj.html