邓栋:2016年清华大学优秀博士学位论文一等奖获得者
大数据处理中的容错技术研究
Error- Big Data
作 者:邓栋(图右)
指导教师:李国良(图左)
培养院系:计算机科学与技术系
学 科:工科
读博感言:
有良师指导、益友陪伴,读博苦更乐,受用一生。
研究背景/选题意义/研究价值
现实世界的数据有各类错误,像拼写错误、格式错误、数据不一致等。分析数据前,常要先处理和转化原始数据,以得到可用数据。传统数据处理方式可能丢失诸多有效信息,甚至引入错误信息。为获最佳分析结果并适应当今大数据时代需求,论文研究了大数据处理中的容错技术。现实世界中的数据很多都能用序列或者集合的形式表示,论文利用广泛应用的序列相似函数和集合相似函数来容忍数据的错误,针对数据处理的抽取、连接、检索这三个最典型操作,论文研究近似抽取、近似连接和近似检索技术来实现错误容忍的数据处理,还设计了高效的索引和算法。
主要研究内容
论文提出了统一的框架,该框架能同时支持序列相似函数和集合相似函数下的近似抽取,基于此统一框架,论文设计了高效的过滤算法,用以避免不必要的计算,还设计了堆算法来共享计算,论文提出了快速有效的剪枝策略,以此进一步提高抽取性能,实验表明,论文提出的方法比现有最好的方法快1-2个数量级。
论文设计了一个基于划分的框架来支持序列近似连接,把序列平均划分为不相交的片段,保证仅当一个序列的子序列与另一个序列的片段匹配时它们才可能相似,提出了有效的子序列选取技术,证明了该技术选取的子序列数量是最少的,还提出了扩展验证技术来快速验证候选结果。
图1展示了EDBT大数据竞赛前三名的性能比较,其中1_A是我们的程序,单位是秒
图2:容错数据处理系统架构图
对于集合近似连接,论文依据全集将集合划分成不相交的片段(子集),提出混合运用片段和1 - 删集(移除片段中1个元素后的子集)以提高过滤能力,设计了近似比为2的贪心算法,还通过多长度分组把分配选取时间复杂度从O(s3)降低到O(s log s),其中s是集合大小 。论文对该算法进行扩展,使其能在Spark上运行,以支持大数据的近似连接。基于划分的算法在EDBT大数据融合竞赛中获得冠军,且具有绝对优势,其效率比获得亚军的算法高10倍。
论文提出了一个关键前缀过滤技术,该技术用于解决基于序列相似性的近似检索问题,相比现有最好的前缀过滤技术,关键前缀过滤技术的剪枝能力更强,过滤代价更小,论文设计了动态规划算法,该算法用于快速选取高质量的关键前缀以检测离散的错误,论文还提出了对齐过滤技术,该技术用于检测序列中连续的错误。
主要创新点
界定了股权信托等名实分离情形中股东资格的认定,以信托关系对隐名出资人与名义股东之间的关系进行重构。
从多个部门法的角度,对股权信托受托人的权力进行阐述,对其义务也进行阐述,并且试图归纳出妥当应对角色义务规范冲突的规则。
对股权信托受托人的权力边界进行了分类,针对具体权力开展了类型化尝试。
代表性学术发表
学生作为第一作者,共发表了11篇中国计算机学会A类论文长文,这些论文被引用了近300次。
董登、李、何文、H. V. 等人,《META: 基于集合连接》,VLDB 2016:360 - 371
你提供的内容似乎存在一些不清晰和错误的地方,不太能准确理解其确切含义并进行有效改写。请你检查或修正后重新提供准确内容 。
你提供的内容似乎存在一些乱码或不清晰的表述,无法准确理解其完整含义并进行改写,请你检查或补充完整准确的内容。
Dong Deng, Yu Jiang, Li, Jian Li, Cong Yu.

你提供的内容似乎存在乱码或不完整,无法准确理解并进行改写,请检查或补充完整准确的内容。
你提供的内容似乎不完整且存在一些混淆,不太能明确准确的需求,请补充完整清晰的信息以便我能按照要求进行改写。
你提供的内容似乎不完整且存在一些混淆,不太明确准确的意思,无法按照要求进行改写。请补充完整清晰的内容以便能正确处理。
你提供的内容似乎不完整且存在一些乱码,不太能明确准确的含义,无法按照要求进行改写。请你检查并补充完整准确的内容。
李东登,《Pass-Join:A 基于连接的连接方法》,VLDB 2012年第353 - 364页 。
你提供的内容似乎不完整且存在一些乱码,无法准确理解其完整意思并进行改写,请补充完整清晰的内容。
你提供的内容似乎存在较多不清晰和错误的表述,不太能准确理解其确切含义,无法按照要求进行改写。请检查并修正后重新提供。
# php网站建设的流程
# 更强
# 淮南市网站建设
# 什么网站优化
# 购物网站建设详细内容
# 东丽区店铺推广招聘网站
# 遂宁网站建设有哪些平台
# 选择网站优化公司
# 投资的网站建设管理规定
# 爱网站建设需要
# 论坛网站免费推广
# 要先
# 岫岩网站推广套餐
# 内江做推广的网站的公司
# 潍坊网站建设工作推荐会
# 沧州网站建设排名前十
# 新余seo公司优选20火星
# 美食app推广营销
# 营销推广的电影
# 江苏无锡网站推广及优化
# 网站的推广的费用
# 市北网站建设电话
# 受托人
# 论文数据处理什么意思
# 论文处理数据技术大纲
# 提出了
# 数据处理
# 不太
# 请你
# 不完整
# 最好的
# 或不
# 请检查
# 大数据处理技术论文
# 清华大学
# 多个
# 等人
# 能在
# 我能
# 对其
# 较多
# 使其
# 高质量
相关文章:
app推广拉新之通过产品策略来实现用户拉新的四个方法!
如何做好app地推活动?做好这8点快速提升app线下引流效果!
广告投放花钱也要花得值,效果才是花钱投广告的目的!
app推广怎么做?推荐这8个主流app推广渠道!
引流渠道和平台有哪些?目前主流的引流渠道和平台都在这了!
谈一谈目前广告联盟行业的发展现状和趋势!
微信引流应该如何做?行业大神们微信引流的七个步骤!
如何做副业挣钱?这10个可以当做副业挣钱的项目不容错过!
微信营销新玩法之#话题标签引流吸粉玩法分享!
企业微信电脑版:功能丰富,助力企业与员工高效办公 新吴区视频营销推广中心
化妆品批文办理、报关及标签制作全流程解析!报关价格500/票 有哪些外贸网站推广的书
如何选择适合自己的副业赚钱项目?
网站没排名怎么办?做好这六点网站排名起死回生!
宝妈在家兼职工作有哪些选择?在线教育与自媒体运营了解一下 德宏网络营销与推广招聘
建一个企业网站要花多少钱?价格差距大的原因分析 黑帽seo黑酷科技
app推广运营该怎么做,需要注意哪些问题?
文章引流该怎么做?做好这6点流量源源不断!
广告推广怎么做比较好?推广的应用场景和产品分析!
app推广接单平台哪个好?推荐这几个!
如何衡量cpm、cpc、广告的实际投放效果?
交友联盟收益怎么样?哪家靠谱?
靠谱的网上兼职赚钱项目都有哪些?推荐这四个!
app引流如何做?app引流推广最常见的四大引流推广方法
如何打造成功企业网站?从三维度探讨及用户体验提升要点 六福珠宝营销推广
利用热门电影日引流1000+的方法,学会了引流不再是问题!
6个适合利用空余时间来做的副业赚钱渠道
可以长期兼职写作赚钱的三大平台,搞点副业赚钱轻轻松松!
微信赚钱项目之如何利用微信解封赚钱?
抖音福袋不再中奖?原因竟然是……快来一探究竟 雅居乐地产营销推广案例
广告联盟上的网赚形式有哪些优势?
网站单页面优化的8个核心要素,做好了排名快速提升!
广告推广赚钱怎么做?国内有哪些靠谱的广告联盟?
网站赚钱怎么做?做什么网站最赚钱?
揭秘利用百度小程序挂广告赚钱的操作玩法,竟然还可以这样玩?
广告投放怎么做?互联网广告投放方式都有哪些?
成都多部门通知!智慧物业平台业主端—小程序近期上线运行 晋江网站建设与管理笔记
想要在联盟推广产品赚钱月入过万,这些你必须得知道!
搜狗联盟怎么样,还能赚到钱吗?
信息流广告为什么受广告主喜欢?
|直播|交友类的社交app如今为什么这么火爆?有这5大优势!
个人站长赚钱怎么做?5个靠谱的个人站长赚钱项目分享!
广告联盟赚钱教程,利用联盟赚钱的三个主要方法!
上海网站建设费用计算方式,涵盖空间域名、设计、程序功能等方面 大兴区品牌网站建设职责
广告宣传方式有哪些?目前最常见的15种广告宣传方式盘点!
社交app推广引流之微信陌生人社交推广引流吸粉!
网络广告联盟计费方式是怎样的?
广告联盟怎么赚钱?四大广告联盟赚钱方式对比!
社区论坛引流做好这三点,流量自动来找你!
网站没流量?这4个非常有效的网站外链引流方法一定要掌握!
想要做好广告联盟赚钱,必须要注意这8个细节!
相关栏目:
【
广告资讯90366 】
【
广告推广18483 】
【
广告优化154267 】
【
广告营销46464 】