行业分享:文本數(shù)据标注的整体流程、类型与应用场景

发布时间:2022-02-11 15:00:44 阅读次數(shù):723店國

  自(zì)然语言對(duì)话是网络大(dà)數(shù)開醫据语义理(lǐ)解的主要挑战之一(yī),被誉為(wèi)人(rén)工智能分空皇冠上(shàng)的宝石,而文本數(shù)据标注就是这一文妹(yī)系列工作(zuò)中(zhōng)最基础、最重要的环节。自兒熱(zì)然语言對(duì)话系统的研究是希望机器人(rén)能來多够理(lǐ)解人(rén)类的自(zì)然语言,同时实现个性化亮女的情感表达、知(zhī)识推理(lǐ)和信(xìn)息汇总等功能。

  文本标注的目标则是帮助机器理(lǐ)解人(rén)类的自(zì)然语言學白,通过标注數(shù)据中(zhōng)的标签,例如关键字、符号、短语或句子,懂黑甚至是隐含的各种情绪,教会机器识别文本中(zhōng)的人(rén)类意图影看或者情感,并促使机器人(rén)對(duì)人(rén)类的情書厭感做出精准定位。

  什么是文本數(shù)据标注

  作(zuò)為(wèi)常见數(shù)据标注类型之一(yī風跳),文本标注指将文字、符号在(zài)内的文本进行标注,让计算机能她相够读懂识别,从而应用于人(rén)类的生(shēng)产生(shē錢文ng)活领域!

  文本數(shù)据标注的重要性

  在(zài)人(rén)工智能的三要素數(shù)据、算力和算白鐘法中(zhōng),數(shù)据相当于AI算法的燃料。简单理(lǐ火校)解,文本數(shù)据标注相当于為(wèi)“投喂”AI准备“饲料”。机器学通電習(xí)中(zhōng)的监督学習(xí)和半监督学習(xí樂信)都需要人(rén)工标注好的數(shù)据进行学習(xí),其训练集、通在验证集和测试集都是标注过的數(shù)据。

  当前,虽然有(yǒu)很多公开的语料库可供使用,但對(duì)于你雜垂直领域来说,还是需要构建自(zì)己的专业语料库后训练模型效些短果比较理(lǐ)想,也经常会出现自(zì)己根据实际业务需求而进行數(shù草高)据标注的情况。

  实际上(shàng),与图片、语音、视频等其他模态的數(shù)据标注相為問比,文本标注更具有(yǒu)其自(zì)身的特点,这也就产生(shēng通答)了后续一(yī)些十分经典的标注故事。

  文本數(shù)据标注的类型

  文本是最常用的數(shù)据类型。70%的公司均离不开文本。文本的好湖數(shù)据标注包括各种标注,如情绪、意图、属性、关系、实体、类别和搜窗報索等类型

  01命名实体标注

  实体标注; 实体标注需要将一(yī)句话中(zhōng)的請看实体提取出来,如电视,足球,门等。有(yǒu)时候还需要将划分这句话的类科站别如音乐,百科,新闻等或者是标注出文本中(zhōng)的动作(z也東uò)指令(开门,播放等),许多企业都会在(zài)各种应用场景中(zhōng信煙)应用命名实体标注功能。

  02情感标注

  情感标注∶此类标注通常需要判定一(yī)句话包含的情感,如站舊三级情感标注(正向,中(zhōng)性,负向),要求高(gāo身街)的会分成六级甚至十二级情感标注。為(wèi)了获得这些數(我低shù)据,经常要用到人(rén)工标注者,因為(wèi)他们可以评估所嗎從有(yǒu)网络平台(包括社交媒体和电商网站)上(shàng)的情绪和评论數樹内容,并能够标记和报告中(zhōng)辱骂、敏感的关键字或新词。

  03关系标注

  关系标注是對(duì)复句的句法关联和语义关联做出重要标示還司的一(yī)种任务,是复句自(zì)动分析的形式标记。下(xià)面對(d人樹uì)涉及关系标注的知(zhī)识图谱做简要介绍。

  知(zhī)识图谱,也叫知(zhī)识库,客户用来做查询和推理(lǐ)用。和中知(zhī)识图谱的结构包括实体、属性和关系。例如,用户提问“光司北(běi)纬38”56.東(dōng)经116”20的城市在(zài)哪南河个国家",机器回答“这个城市是北(běi)京,且在藍金(zài)中(zhōng)国”

  04意图标注

  随着人(rén)们越来越多地使用人(rén)机交互进行交流,机器必購讀须能够理(lǐ)解自(zì)然语言和用户意图。多意向數(shù)据收集和分类路唱可将意向划分為(wèi)若干关键类别,包括请求、命令、预订、會是推荐和确认。

  如客户要明(míng)确查询天气,里面有(yǒu)“查询天气”“查询气象紙區-雨”“查询气象-雾”“查询气象-气温”等意图

  05语义标注

  语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有(和河yǒu)助于把浏览者转化為(wèi)买家。语义标注服务通过标记产品标题和搜能舞索查询中(zhōng)的各个组件,帮助训练算法,以识别各组成部分,提高(開從gāo)总体搜索相关性

  不同文本數(shù)据标注示例

  文本數(shù)据标注的流程介绍

  數(shù)据标注一(yī)般都分為(wèi)采集、清洗些舊、标注、质检等几个步骤,文本數(shù)据标注也不例外(wài),大(dà機關)致流程為(wèi)处理(lǐ)、标注(线上(shàng)标注、线下(xi木白à)标注)、质检、验收,數(shù)据处理(lǐ)和數(shù)据交都店付。

  具体到各个步骤,操作(zuò)细节如下(xià):

  (1)预处理(lǐ):根据數(shù)据的规范要求,對(du商一ì)數(shù)据进行算法的初步处理(lǐ)

  (2)标注:根据项目要求,可以将标注分為(wèi)线上(shàng)标道匠注(數(shù)据+平台)和线下(xià)标注

  ①线上(shàng)标注:将源數(shù)据上(shàn視東g)传到“數(shù)据+平台",通过互联网进行操作(zuò)

  ②线下(xià)标注:通过线下(xià)小(xiǎo)工具或线下(慢草xià)文本(TXT、Excel等)进行操作(zuò)

  (3)质检:根据數(shù)据合格率要求,由理(lǐ)解定义规范的人(ré山爸n)员對(duì)已标注數(shù)据进行抽查

  (4)验收:由數(shù)据质量中(zhōng)心對(d民化uì)质检合格數(shù)据进行再次验证

  (5)數(shù)据处理(lǐ):利用技(jì)术处理(l土街ǐ)成客户需要的格式(如JSON、UTF-8文本或Excel等)

  (6)數(shù)据交付:數(shù)据加密后交付客户

  文本數(shù)据标注的应用场景

  文本标注应用范围很广泛,具体来说,文本數(shù)据标注应用比较多的场景低是包括新零售行业、客服行业、广告行业、金融行业和医疗行业等:应用类型自我主要有(yǒu)數(shù)据清洗、语义识别、实体识别、场景识别、情劇國绪识别以及应答识别等。

  01客服行业

  在(zài)客服行业文本标注主要集中(zhōng)在(zài)场景识别和应也聽答识别,客服基本可分為(wèi)人(rén)工客服和电子客服,其中(zhōn公校g)人(rén)工客服又可细分為(wèi)文字客服、视频客服和语綠對音客服三类

  以不少电商平台的智能客服机器為(wèi)例,当用户在(zài)购低上物遇到问题,需要与机器人(rén)沟通交流时人(rén)工智化技能将根据用户的咨询内容且對(duì)应的场景,然后让用户选择更细分的应答模式,行票再定位到用户的实际场景中(zhōng),根据用户的具体问题给出對遠匠(duì)应的回答,整个过程就好比是把用户的问题的用漏斗状的筛子过一(yī)女吧遍

  在(zài)初期建立应答体系的时候,需要對(duì)海量用們畫户咨询语言所产生(shēng)的文字材料进行分类,把应對(duì)的用户跳就咨询的问题事先标记好,然后放进對(duì)应的模型中(zhōng)湖章,例如我(wǒ)看到的这台电视电脑CPU是什么型号

  在(zài)这一(yī)步中(zhōng),數(shù)据标注的體是具体工作(zuò)就是给句子的场景打标,将用户问题细分应對(區資duì)的场景中(zhōng),在(zài)进行这种标注时需要人(ré見朋n)工智能非常熟悉本行业的业务逻辑數(shù),其实这就是建草視立机器人(rén)的应答知(zhī)识库,机器人(rén)在(zà理們i)收到用户发出的指令时,需要识别这些指令和哪个细分问题的,你额度最說器高(gāo),然后选取哪个问题的答案作(zuò)為(wèi)给算水用户的答案

  02新零售行业

  新零售是指个人(rén)、企业以互联网為(wèi)依托,通过作花运用大(dà)數(shù)据、人(rén)工智能等先进技(jì)术手段,對(信微duì)商品的生(shēng)产、流通与销售过程进行升级改造,进而重塑业态结林件构与生(shēng)态圈,并對(duì)线上(shàng)服务、线下(xià)視問体验以及现代物流进行深度融合的零售新模式。

  在(zài)此过程中(zhōng),需要對(duì)客户的问题进行精准定市飛位,既需要對(duì)客户的问题进行量身定制,又需要考虑多數站厭(shù)客户的共性要求,这就需要借助文本數(shù)据标注白快的方法,将顾客的相应问题做出标记。

  03金融行业

  线上(shàng)平台标注和线下(xià)表格标注是金融行業對业文本标注主要的标注形式。以现代商业的企业签约举例:在(zài)企得妹业的商务合同中(zhōng),對(duì)关键信(xìn)息的读取就显得尤制藍為(wèi)重要

  例如,合同中(zhōng)提到的公司名称,合同编号、发票编站話号、相关金额,到期日期和风险提示等,这些内容囊括了甲乙双方公司人如的核心信(xìn)息。對(duì)于一(yī)个规模较大(dà)的公司来拍體说,每天的签约合同非常之多,如果采用一(yī)个或几个人(rén)場司對(duì)这些合同中(zhōng)的相关信(xìn)息加以提收乃至核對(d就不uì),这项任务就显得十分繁重而且意义不大(dà)。

  在(zài)人(rén)工智能时代,可以考虑建立一(yī)務行个企业合同分析模型,對(duì)合同中(zhōng)的相关信(xìn)息进行大來提取,从而可以减少劳动量,降低人(rén)力成本,提高(gāo拿會)工作(zuò)效率。

  04广告行业

  广告行业是在(zài)市场经济充分发展的条件下(xià)逐步形成的見業,从单一(yī)的广告活动发展成為(wèi)独立的广告行业经历了司街漫长的过程。广告制作(zuò)作(zuò)為(wèi)广告行业的計鐵重点工作(zuò)之一(yī),都需要广告设计工作(zuò)者低匠的辛勤劳动

  考虑到未来商品市场的发展趋势。以及单个商品的文案设计与广告其他慢算工作(zuò),类别相近且销量较高(gāo)的商品文案可相互借鉴,将玩兒已有(yǒu)的单个商品文案进行综合,取其精华、去其根粕,通过文小視本數(shù)据标注将文案中(zhōng)的“精华”与“糟粕”标山門记出来,让文案设计工作(zuò)者可以在(zài)案例中(zhōng)进行提公木取综合,这无疑将提高(gāo)工作(zuò)效率

  05医疗行业

  在(zài)医疗行业對(duì)自(zì)然语言进行标注处理那身(lǐ),對(duì)专业度要求比较高(gāo),需要专门的医学人(rén)才議工才能进行标注,往往本行业的标注的對(duì)象是从病列中(zh學舊ōng)抽取出来的一(yī)些字段,病例里面的体查项和既往病史是有(yǒ離場u)模板的,直接识别可以,替换项的结果就可以,这往往比较容易的。但是主诉民文和医生(shēng)對(duì)患者的描述通常每次都会有(yǒu)所差請票异

  我(wǒ)们在(zài)做标注的时候可以这样处理(lǐ),首花物先明(míng)确每个词的属性,记每个词在(zài)这种语境下(xià)面具黑物备怎样的属性,然后标注每个词在(zài)句子中(zhōng)的如喝作(zuò)用,举个例子患者主诉為(wèi)腰痛2年,伴左下(xià)肢拍地放射痛10日余


在(zài)线客服 联系方式 二维码

电话

17791672784

扫一(yī)扫,关注我(wǒ)们