时间:2023-02-17 15:31:55 | 浏览:1806
在搜索引擎的功能上,曾经遇到过这样一个问题,数据库中某个公司名称中存在特殊编码,尽管数据已经正常同步到索引中,但是系统中关键词始终也无法匹配到该公司;
然后在库中模糊匹配,将公司名称复制到搜索框中,这样就可以正常命中索引,那么问题也就很清楚了,这种数据"隐身"的情况,即看着是同一个字,但是实际上不是,通常由特殊编码引起的;
通过表单进行数据采集是常用的业务手段,但是如果表单存在多个任意输入的文本框,这样获取的数据在质量上可能存在很多欠缺,尤其针对一些核心字段,严谨的校验规则十分有必要;
如果站在数据层面来看,虽然获取多维度数据有利于全景识别,但是各个维度的值准确与否或质量高低才是关键,对于多数业务场景来说,只依赖数据实体的部分属性,更多还是在于数据维度的质量;
提高数据质量的手段中,最行之有效的方式就是尽可能对字段维度提供枚举值,将数据内容限制在约定的范围内,其次就是校验规则需要严谨,以此确保业务数据的高质量;
在分布式系统架构中,比较常见的基础服务层通常有:调度、缓存、文件、消息、字典等,下面就来详细的聊聊字典服务的设计与业务协作的逻辑;首先看一看交互逻辑:
在字典服务中,通常管理公共的常量与数据枚举值得维护;常规情况下,在业务表单加载的时候,从字典服务中读取各维度枚举值,在表单提交的时候,校验相关枚举字段,以此提高内容的质量;
在字典服务中提供的枚举值,根本目的是为了确保数据值的统一性,尽可能地避免同一个信息用两种方式描述,比如编程标签:"JAVA"与"Java",虽然从程序角度可以规避识别,但实际上是可以避免的;
从字典服务常见的内容管理来看,通常包括:常量、状态描述、业务标识;行业、标签、地址、学校等数据码表;其最大的特点就是在系统中被全局复用和识别;
对于字典数据的维护,通常使用两种手段:枚举类管理,码表存储,参数表存储;如何选择对应的方式,更多是取决于数据的属性:
枚举类:维护基本不会改变的字段,比如数据的常规状态描述;
码表:通常数据具有层次或者级联关系,比如地址和行业中的多级联动;
参数表:即时要求很高,例如字段枚举值得定义,需要动态实时管理;
不管使用那种方式管理字典数据,都需要增强业务语义的描述,这样在业务表单中通过相应标识读取对应枚举选项即可,并且拦截范围之外的提交动作;
字典数据的查询通常采用Cache-Aside缓存模式,即查询优先访问缓存数据,命中则返回数据;否则访问库表数据,获取数据后返回页面并同步缓存中;在控制中心做内容修改后也需要再次同步缓存;
字典服务虽然并不复杂的,但是系统访问却十分频繁,如果出现异常情况很容易对业务产生大规模的影响,既要考虑并发访问的流量,又要设计合理的查询降低加载时间,避免对流程产生有感知的影响;
不管是采用字典方式加载枚举值,还是采用任意输入的方式,都会面对一个无法避开的问题,字段值在业务开发中不断优化,则需要对数据进行清洗,至于数据清洗的流程在之前有详细的总结过,这里不再赘述。
数据字典本身的逻辑比较简单,但是如果放在数据体系中,这是一种基础的意识,在数据中很容易出现同名但定义不同,或者定义相同但名称不同,这会给数据分析带来很多不必要的麻烦;
所以基于数据字典的方式,明确数据口径同时避免业务语义产生分歧,尤其对于汉语来说,"意思"到底是什么意思?
END
一、业务背景在搜索引擎的功能上,曾经遇到过这样一个问题,数据库中某个公司名称中存在特殊编码,尽管数据已经正常同步到索引中,但是系统中关键词始终也无法匹配到该公司;然后在库中模糊匹配,将公司名称复制到搜索框中,这样就可以正常命中索引,那么问题
作为中国在近现代最具影响力的工具书之一:《康熙字典》可谓群众基础最深的非近现代字典,因为具有非常标准的笔划规则,因此很多老派人士都用它来做起名的参考。而在依照康熙字典取名时,五格笔划计算有些特殊的字需按特殊方法计算笔画,原则如下: 一、数
最近,《康熙字典》火了。因为这部老字典被不少起名者盯上了,成了家长眼中的“起名神器”。清代康熙年间编纂的《康熙字典》,在当时的影响很大,是读书人应举考试的必备书。而如今,新编汉语字典层出不穷,在人们的日常学习工作中,《康熙字典》似乎已经过时
说不出心里到底是什么滋味。夹杂着气愤,新华字典是孩子们学习汉字的标杆,为什么会有低俗内容?夹杂着失望,这些内容到底是怎么出现在字典里的?今天这样一则热搜引发了网友的激烈讨论。亡羊补牢,犹未迟也,现在能发现并下架已经不错了!但这背后所反映出来
汉字称得上大部头的字典有三部,一部是上个世纪六十年代日本人诸桥彻次编纂的《大汉和辞典》,一部是七十年代台湾出版的《中华大辞典》,第三部就是1986年出版的《汉语大字典》。感谢书籍电子化,不然这样大部头的书,普通人是无法得见的。日本的《大汉和
古代的书籍善本其实是最难保存的一种收藏品,我们比较常见到的古代书籍里面就有康熙字典这种书籍,一般像康熙字典这样的书,我们很容易认为就是康熙那个时代的书本,其实康熙字典有很多版本这些版本中绝大部分都是民国时期印刷的比较多一些,因为在康熙时代的
光明日报记者 陈雪 谭华一本“书龄”70年的字典,再度更新了。8月10日,《新华字典》(第12版)在北京图书大厦正式亮相。作为人手一本的“国民字典”,《新华字典》自1950年启动编撰以来,共经历了12次修订,上一次第11版修订为2011年6
【新华字典第12版首发:新华字典增添粉丝点赞等新词】今天,《新华字典》(第12版)正式首发:①增添新词达100多个,如“初心”“粉丝”“截屏”“二维码”“点赞”等;②增补了50个字词新义新用法,包括“卖萌”“拼车”等;③应用程序APP同步发
来源:人民网原标题:小字典记录大时代 9月1日,《新华字典》编纂70年暨第12版出版座谈会在北京人民大会堂举行。编纂者、出版者、读者等汇聚一堂,畅谈阅读使用《新华字典》的故事和感受。《新华字典》是新中国第一部现代汉语字典,迄今已经印行6亿多
《新华字典》第12版八月正式出版发行以来,已完成全国新华书店的上架工作。经过12次修订的《新华字典》,发行已超过6亿册。新版《新华字典》到底新在哪?第12版《新华字典》历经五年反复论证修改,有50多个专项全面升级,更加适合新时代读者,特别是
6月11日,由商务印书馆出版、中国社科院语言所修订的《新华字典》App(1.0版)正式上线,成为市场唯一正版的《新华字典》App。然而,其每天只能免费查两个字,完整版则需付费40元的情况,引发舆论争议。在应用商店中,《新华字典》的评分也两极
东汉经学家、文字学家许慎撰写的《说文解字》是我国首部以六书的观点为基础来阐释字形、分析字义的字典。《说文解字》将多数先秦字体及秦汉两代文字的训诂成果保留了下来,再现了古汉语词汇,有层次地阐释了关于文字的观点,因此被誉为我国文字学史上首部评析
字典APP开发给孩子们的学习带来便利,在线查字典,十分方便。在我们开始上学的时候就陪伴着我们成长,可以说《新华字典》见证了我们学习的过程,也见证了每个学生生涯的过程,而随着互联网的不断发展,类似新华字典APP开发出现在我们的生活中,只需要一
六书广场——指事、象形、形声、会意、转注、假借等许慎在说文解字中归纳总结的六书理论。几年前,去河南漯河龙塘办事,听说许慎文化园就在附近,心怀崇敬,特去拜谒。几年过去了,也不知现在变化大不大。子学宗师——许慎墓前的“字”形牌坊许慎(约58——
当我们回忆起童年生活,你还记得那本《新华字典》吗?近日,第12版《新华字典》正式亮相。一本“书龄”70年的字典,再度更新。8月10日,《新华字典》(第12版)在北京图书大厦正式亮相。作为人手一本的“国民字典”,《新华字典》自1950年启动编