当前分类:/开发技术/BigData

高元_G·Marshal
高元_G·Marshal

来源:http://www.2cto.com/kf/201511/451412.html附件:图解Solr6.6安装与MySQL配置.docx概述Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Luc

BigData 阅读(371) 评论(0)20170801085909

石明瑾
石明瑾

数据清洗步骤利用Calculator计算器进行数据清洗工作相关的选项Replaceinstring字符串替换步骤Fuzzymatch模糊匹配步骤Kettle里的字符串匹配算法Streamlookup流查询步骤使用参照表数据清洗步骤Kettle 里

BigData 阅读(1159) 评论(0)20170720082946

石明瑾
石明瑾

思路:Kettle可通过两种选择获取webservice结果,一种是web服务查询(webservicelookup),还一种是利用HTTPPOST,这里使用web服务查询的方式,数据来源为http://www.webxml.com.cn/WebServi

BigData 阅读(507) 评论(0)20170719162000

高元_G·Marshal
高元_G·Marshal

来源:http://www.cnblogs.com/chowmin/articles/4629220.htmlElasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用

BigData 阅读(553) 评论(0)20170713152427

高元_G·Marshal
高元_G·Marshal

1、搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限

BigData 阅读(367) 评论(0)20170713152254

高元_G·Marshal
高元_G·Marshal

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-

BigData 阅读(749) 评论(0)20170713134615

高元_G·Marshal
高元_G·Marshal

Zookeeper的安装和配置十分简单,既可以配置成单机模式,也可以配置成集群模式.下面将分别进行介绍.单机模式点击这里下载zookeeper的安装包之后,解压到合适目录.进入zookeeper目录下的conf子目录,创建zoo.cfg:Bash代码&nb

BigData 阅读(347) 评论(0)20170713134314

高元_G·Marshal
高元_G·Marshal

比较完全的参考地址:http://www.cnblogs.com/zlslch/p/5966004.html1.简介kafka(官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。i.消息的发布

BigData 阅读(466) 评论(0)20170713081706

高元_G·Marshal
高元_G·Marshal

Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PCServer上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费Kakfa特点:解耦:消息系统在处理过程

BigData 阅读(1285) 评论(0)20170713082612

高元_G·Marshal
高元_G·Marshal

http://blog.csdn.net/zutsoft/article/details/52998148

BigData 阅读(315) 评论(0)20170712100540
睿恒知识库-V3.2.0