解决方案:【大数据入门核心技术-Flume】(四)使用Flume采集数据到Hive

优采云 发布时间: 2022-12-21 09:37

  解决方案:【大数据入门核心技术-Flume】(四)使用Flume采集数据到Hive

  【大数据入门核心技术——Kafka】(七)Ka

  记录

  一、准备工作

  1.Hadoop环境安装

  2、Flume安装部署

  2.采集数据到HDFS

  1.配置任务文件

  2.开始传输

  3.查看同步是否成功

  3.常见问题

  1.运行flume-ng代理报错mon.base.Preconditions.checkArgument

  2. ERR: 文件名已被不同的文件重复使用

  一、准备工作

  1.Hadoop环境安装

  【大数据入门核心技术-Hadoop】(五)Hadoop3.2.1非高可用集群搭建

  【大数据入门核心技术-Hadoop】(六)Hadoop3.2.1高可用集群搭建

  2、Flume安装部署

  【大数据入门核心技术——Flume】(二)Flume安装部署

  2.采集数据到HDFS

  

  1.配置任务文件

  CD~

  创建 flume-hdfs.conf

  vi flume-hdfs.conf

  a1.sources=r1

  a1.sinks=k1

  a1.channels=c1

  a1.sources.r1.type=spooldir

  a1.sources.r1.spoolDir=/root/logs/

  a1.sources.r1.fileHeader=true

  a1.sinks.k1.type=hdfs

  a1.sinks.k1.hdfs.path=hdfs://mycluster:8020/tmp/flume

  a1.sinks.k1.hdfs.rollsize=1048760

  a1.sinks.k1.hdfs.rollCount=0

  a1.sinks.k1.hdfs.rollInterval=900

  a1.sinks.k1.hdfs.useLocalTimeStamp=true

  a1.channels.c1.type=文件

  a1.channels.c1.capacity=1000

  a1.channels.c1.transactionCapacity=100

  a1.sources.r1.channels = c1

  

  a1.sinks.k1.channel = c1

  2.开始传输

  使用flume-ng agent命令加载flume-hdfs.conf配置信息,启动flume传输数据。

  3.查看同步是否成功

  3.常见问题

  1.运行flume-ng代理报错mon.base.Preconditions.checkArgument

  问题原因:

  番石榴版本错误。 解决方法是删除低版本(hadoop或hive),复制高版本,如下

  解决方案:

  $FLUME_HOME/lib/番石榴*; ll $HADOOP_HOME/share/hadoop/common/lib/guava*

  -rw-r--r--。 1 root root 年 6 月 27 日 /usr/local/flume-1.8.0/lib/guava-11.0.2.jar

  -rw-r--r--。 1 testuser 超级组 2747878 2019 年 9 月 10 日 /usr/local/hadoop-3.2.1/share/hadoop/common/lib/guava-27.0-jre.jar

  rm -f $FLUME_HOME/lib/guava-11.0.2.jar

  cp $HADOOP_HOME/share/hadoop/common/lib/guava-27.0-jre.jar $FLUME_HOME/lib/

  2. ERR: 文件名已被不同的文件重复使用

  问题原因:

  *.COMPLETED 文件已经存在于旧的配置 flume 日志下

  解决方案:

  删除已有的*.COMPLETED文件后,重启flume-ng代理命令

  技术文章:网站SEO文章总是被采集怎么解决

  问:老师您好! 学完网站课程后,我建了一个网站,每天写一两篇原创文章。 现在网站有点SEO排名,但是最近发现自己网站发的文章一出就被大网站采集了。

  经常出现我写的文章,我自己的网站没有收录,但是我采集的大网站都有收录,而且他们也有SEO排名。 真烦人,请问老师有什么解决办法吗?

  

  答:您好,网站文章被采集是一种普遍现象。 其他网站采集你的网站文章,特别是为了证明你写的文章是有价值的。

  虽然现在SEO搜索引擎识别原创的能力增强了,但是你说的这种情况还是会出现。 因此,个别站长不希望自己的网站文章被他人采集。

  这里给大家提供一个“治标不治本”的方法:只需修改自己网站文章页面的主DIV的类名即可。 因为很多采集都是通过识别DIV的类名来采集的。

  

  另外,可以给自己的网站加上屏蔽鼠标左键和右键菜单的功能,也能在一定程度上解决采集问题。

  (相关知识:如何采集wordpress网站)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线