数据采集方式有哪些,都有什么特点?

随着中国社会的进一步发展,各行各业都得到了一定程度的进步。进入21世纪以来,大数据、人工智能等行业的飞速发展,极大的带动全社会进步。但是,在一些传统行业内部,还存在这落后的东西,例如数据采集还是沿用传统的采集方式,大部分借助于人工采集方式,耗时耗力,亟需改进。

随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。

和这些内容息息相关的就是数据采集,小亿今天就和大家聊聊关于数据采集。

一、什么是数据采集?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于人工智能等相关领域,摄像头、麦克风等,都是数据采集的工具。

数据采集系统整合了信号、传感器等数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化数据最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

而数据采集的要点,主要有以下三点:

1、全面性

数据量足够具有分析价值、数据面足够支撑分析需求。比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

2、多维性

数据更重要的是能够满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次,而不仅仅是知道用户进入了商品详情页。

3、高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的时效性。 不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。 通过了解数据采集的三大要点,选择全面、准确、高效的数据合作伙伴至关重要。

二、数据采集方式有哪些?

数据感知可分为“硬感知”和“软感知”,面向不同场景,即数据采集技术可以分为这两个方面的技术。

“硬感知”主要利用设备或装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而“软感知”使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖物理设备进行收集。

1、基于物理世界的“硬感知”能力

数据采集方式主要经历了人工采集和自动采集两个阶段。自动采集技术仍在发展中,不同的应用领域所使用的具体技术手段也不同。基于物理世界的“硬感知”依靠的就是数据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现人工智能的基础。

基于当前的技术水平和应用场景,我们将“硬感知”分为9类,每一类感知方式都有自身的特点和应用场景。

(1)条形码与二维码

条形码或者条码是将宽度不等的多个黑条和空白,按一定的编码规则排列,用以表达一组信息的图形标识符,通常一维条形码所能表示的字符集不过10个数字、26个英文字母及一些特殊字符,条码字符集所能表示的字符个数最多为128个ASCII字符,信息量非常有限。

二维码是用某种特定的几何图形按一定规律在平面上分布的黑白相间的图形,用来记录数据符号信息。二维码拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修正及防伪功能,增加了数据的安全性。

(2)磁卡

磁卡是一种卡片状的磁性记录介质,利用磁性载体记录字符与数字信息,用来保存身份信息。视使用基材的不同,可分为PET卡、PVC卡和纸卡三种;视磁层构造的不同,又可分为磁条卡和全涂磁卡两种。

磁卡的优点是成本低,这是它容易推广的原因,但缺点也比较明显,例如卡的保密性和安全性较差,使用磁卡的应用系统需要有可靠的计算机系统和中央数据库的支持。

(3)RFID

RFID(Radio Frequency Identification,无线射频识别)是一种非接触式的自动识别技术,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。

基于特别业务场景的需求,在RFID的基础上发展出了NFC(Near Field Communication,近场通信)。NFC本质上与RFID没有太大区别,在应用上的区别如下。

NFC的距离小于10cm,所以具有很高的安全性,而RFID距离从几米到几十米都有。

NFC仅限于13.56MHz的频段,与现有非接触智能卡技术兼容,所以很多的厂商和相关团体都支持NFC。而RFID标准较多,难以统一,只能在特殊行业有特殊需求的情况下,采用相应的技术标准。

RFID更多地被应用在生产、物流、跟踪、资产管理上,而NFC则在门禁、公交、手机支付等领域发挥着巨大的作用。

(4)OCR和ICR

OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或者数码相机)检查纸上打印的字符,通过边检测暗、亮的模式确定其形状,将其形状翻译成计算机文字的过程。如何除错或利用辅助信息提高识别正确率,是OCR的重要课题。

ICR(Intelligent Character Recognition,智能字符识别)是一种更先进的OCR。它植入了计算机深度学习的人工智能技术,采用语义推理和语义分析,根据字符上下文语句信息并结合语义知识库,对未识别部分的字符进行信息补全,解决了OCR的技术缺陷。

一个OCR识别系统,从影像到结果输出,须经过影像输入、影像预处理、文字特征抽取、比对识别,最后经人工校正将认错的文字更正,将结果输出。

目前OCR和ICR技术在业界有较为成熟的解决方案供应商,非数字原生企业不需要自行研发就可以完成相关技术的部署和数据的采集。

(5)图像数据采集

图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和对象的技术,是深度学习算法的一种实践应用。

(6)音频数据采集

语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件。

目前音频数据采集技术在业界也有较为成熟的解决方案供应商,可以很便捷地通过解决方案供应商的技术,完成技术的部署和数据的采集。

采集来的声音作为音频文件存储。音频文件是指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,是互联网多媒体中重要的一种文件。音频获取途径包括下载音频、麦克风录制、MP3录音、录制计算机的声音、从CD中获取音频等。

(7)视频数据采集

视频是动态的数据,内容随时间而变化,声音与运动图像同步。通常视频信息体积较大,集成了影像、声音、文本等多种信息。

视频的获取方式包括网络下载、从VCD或DVD中捕获、从录像带中采集、利用摄像机拍摄等,以及购买视频素材、屏幕录制等。

(8)传感器数据采集

传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记录等要求。信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。

传感器数据的主要特点是多源、实时、时序化、海量、高噪声、异构、价值密度低等,数据通信和处理难度都较大。

(9)工业设备数据采集

工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或上报数据。工业设备和系统能够采集、存储、加工、传输数据。工业设备目前应用在很多行业,有联网设备,也有未联网设备。

工业设备数据采集应用广泛,例如可编程逻辑控制器(PLC)现场监控、数控设备故障诊断与检测、专用设备等大型工控设备的远程监控等。

2、基于数字世界的“软感知”能力

物理世界的“硬感知”是将物理对象构建到数字世界中的主要通道,是构建数据孪生的关键,而已经存在于数字世界中的那些分散、异构信息,可通过“软感知”能力来利用。目前“软感知”比较成熟,并随着数字原生企业的崛起而得到了广泛的应用。

(1)埋点

埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获。

埋点的主要作用是能够帮助业务和数据分析人员打通固有信息墙,为了解用户交互行为、扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活跃用户数等。

这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营状况,通过分析埋点获取的数据,制定产品改进策略。

埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求,匹配使用。

代码埋点是目前比较主流的埋点方式,业务人员根据自己的统计需求选择需要埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在想要获取数据的统计点上。

可视化埋点通过可视化页面设定埋点区域和事件ID,从而在用户操作时记录操作行为。

全埋点是在SDK部署时做统一的埋点,将App或应用程序的操作尽量多地采集下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生的信息全采集下来。

(2)日志数据采集

日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目的是识别运行错误、配置错误、入侵尝试、策略违反或安全问题。

在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。

操作日志,指系统用户使用系统过程中的一系列的操作记录。此日志有利于备查及提供相关安全审计的资料。

运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。

安全日志,用于记录在设备侧发生的安全事件,如登录、权限等。

(3)网络爬虫

网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规则自动抓取网页信息的程序或者脚本。

搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的发展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最佳实践。

Python、Java、PHP等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及,也促成了政府、企业界、个人对信息安全和隐私的关注。

三、数据采集如何应用?

在数字化转型的企业中,数据采集可以应用于数据仓库建设、商务智能建设和大数据治理等,小亿以亿信华辰曾经建设国的案例为例为大家讲解数据采集如何在企业中应用。

亿信华辰帮助广州荔湾政数局建设了政务大数据平台,依托四标四实基础数据,整合荔湾区政务数据资源,搭建全区统一的四标四实数据平台,提供多源数据采集、数据管控、数据共享交换、数据分析、数据挖掘、数据服务等核心能力,以大数据技术赋能数字政府建设,盘活数据资源,有效支撑区内政务服务数据使用需求和各部门业务系统的数据服务需求,使政务服务由“管理”向“服务”转变。

赣州银行城商行数据管理平台的总体目标是完成各银行各业务条线产品的梳理,新建系统全面落标,规范字段命名,规范业务接口,提升监管数据的数据质量,为业务发展及金融创新提供助力。


总的来说,不同的数据采集方式也需要在实践中不断的进行改革,发现问题并解决问题,经过不断的发展更改,找到最适合本企业的创新性思路,才能真正的推动企业数据采集工作进一步发展。同时,也需要不断的对数据采集得来的数据进行分析,大数据分析目前已经是一个行业必不可少的部分,依托数据分析,找到最适合行业发展的方式,才能保障行业长久发展,同时适应当今社会的发展要求,不断的提升自身,提高行业竞争力,为社会主义进步贡献行业一份力量。