Home Article Practice 数据标注

数据标注

2024-03-28 18:02  views:190  source:小键人cap666    

1、数据主要有哪三大来源?
答:①、大人群产生的海量数据;
②、大量传感器产生的海量数据;
③、科学研究和各行各业越来越依赖大数据手段来开展工作。
2、数据采集方法有哪些?
答:①、系统日志采集
②、互联网数据采集
③、App移动端数据采集
④、与数据服务机构进行合作
3、数据采集流程是怎样的?
答:首先要明确数据的来源,然后根据行业和应用的定位,来确定采集的数据范围和数量,
并通过核实的数据采集方法,来开展后续的数据采集工作。
4、如何看待基于Flume的数据采集?
答:Flume是Cloudera提供的分布式的海量日志采集、聚合和传输的系统,
在日志收集简单处理方面有重要应用。它收集来自各个服务器的外部数据,
并以封装后的event(单元)流动,其间经过channel(缓冲区),最终到达sink(目的地),
经过上述数据流向,最终达到日志数据采集的目的。
5、针对不同的业务需求,数据清洗的方法有哪些?
答:可以通过忽略元组、数据补齐或不处理的方法处理缺失值,
通过回归、分箱或孤立点分析来处理噪声数据,通过合并或者消除来处理重复数据。
6、如何看待基于MapReduce的数据清洗?
答:MapReduce程序的编写主要是通过映射与化简的过程来实现数据去重的,
对两种文件中的每行数据都可以看做是Map和Reduce函数处理后的Key值,
当出现重复的Key值时,就将其合并在一起,从而达到去重的目的。



Disclaimer: The above articles are added by users themselves and are only for typing and communication purposes. They do not represent the views of this website, and this website does not assume any legal responsibility. This statement is hereby made! If there is any infringement of your rights, please contact us promptly to delete it.

字符:    改为:
去打字就可以设置个性皮肤啦!(O ^ ~ ^ O)