有2000万数据百度云？

点击联系发帖人 时间：2018-05-12 19:48

2000万开放房数据下载

您的位置：>>>正文
2000万开房数据流传 “查开房”网站不断出现
　　近日，网络上流传着一份名为&2000万开房数据&的资料在各大论坛提供下载，随后有&查开房&网站出现并引发热议，大量网友&躺枪&，惊呼后脊梁&直冒冷汗&。北京青年报记者调查发现，&查开房&网站被封后不断复活，并陆续有类似网站出现。民间漏洞检测平台乌云网称泄密信息于今年中旬就已被盗取，泄露源无从查起。目前，国家互联网应急中心已就此事展开调查。
　　&查开房&网站复活亦出现类似网站
　　日前，有神秘网站号称可通过姓名、电话、身份证号等任何方式查询个人在几家连锁酒店开房的信息，许多网友登录搜索后发现中招，多项具体身份信息被公开在网上。几天后，有网友证实网站已被屏蔽，但昨日北青报记者调查发现，&查开房&网站再次&复活&，与之前不同的是，网站需要查询者键入身份证号，而不再支持姓名查询。
　　随后北青报记者发现，打着不同名号、提供类似服务的网站陆续出现，在主页名为&开房数据查询&的网站上，网友只需输入姓名、手机或邮箱就可以开始查询，记者键入一个姓名进行试验，随后搜索到几百条相关记录，每条都列有身份证号、性别、出生年月日、手机号以及注册邮箱等5项个人信息。
　　开房信息于今年年中泄露
　　乌云漏洞报告平台是一个第三方网站漏洞监测网站，民间的互联网安全研究者用户可以在线提交发现的网站安全漏洞，企业用户也可通过该平台获知自己网站的漏洞。该网站负责人曾先生告诉记者，近期网络上可查询到的泄露数据在今年5至6月期间就已被人获取并开始在地下传播，但这个人并未通过乌云检测平台提交给出现漏洞的厂商，而是在黑客圈进行了分享，根据网友分享的截图，解压缩后发现数据文件修改时间为日。
　　曾先生说，最近泄露的开房信息，不是出自之前媒体报道的涉事酒店网络服务商浙江惠达的漏洞。浙江惠达驿站也在其官方网站表示，为酒店提供的无线门户认证系统确实存在信息安全加密等级较低的问题，已进行全面升级，但称未检测到泄露事件。
　　乌云就微博打哑谜封口
　　早前漏洞检测平台乌云发微博称，&至于网上流传那份2000万的用户数据到底是谁家的，乌云君对QQ群和身边中招的小伙伴进行询问，时间和入住者均与某家酒店吻合，他难道就是&&&乌云在这段话下面公布了一串代码，并使用红颜色突出了这样一段话：不知该酒店是否说过我们酒店不受影响、我们的系统绝对安全的豪言壮语呢？此话一出再次引发网友联想。
　　无独有偶，浙江惠达驿站市场部总监也曾向某媒体表示，&查开房&网站背后是个会员数据库，跟公司无关。&我们都知道数据库是从哪一家单位泄露的，但不方便讲。&
　　北青报记者就以上内容联系到发布该微博的曾先生求证，他称2000万数据的泄露源已无从查证，并告诉记者：&查开房的事，由于浙江惠达驿站在全国范围内都有业务，CNCERT(国家互联网应急中心)已经开始介入调查了，我不方便发表任何评论。&
　　北青报记者昨日联系了国家互联网应急中心，该处工作人员称已开始调查，会尽快给出答复。
　　专家：非必须提供的信息应保密
　　检测平台乌云的法律顾问、知识产权律师赵占领告诉北青报记者，之前浙江惠达驿站的漏洞存在于顾客用酒店wifi上网时，网络公司未对用户提交的登录名、密码等信息进行加密，可能会让黑客盗取数据有可乘之机。赵占领说，互联网信息一经泄密难以挽回，大众会很被动无助，能做的就是享受网络服务时对非必须提供信息进行自控和保密。国家工业和信息化部今年7月刚颁布了《电信和互联网用户个人信息保护规定》，如果&查开房&的调查中查明有单位和个人涉及泄密，将以刑事犯罪进行处理。(记者张骁)
责任编辑：芮益芳
请选择您浏览此新闻时的心情
24小时点击排行
12345678910
24小时跟帖排行
环球今日推荐
环球时报系产品17:47 提问
2000万条开房数据，如何快速查询（数据库优化）
某酒店泄漏 2000 万条数据。
如何快速查询某个姓名的全部记录。
姓名不是唯一的，有可能重名。
csv 格式数据大概 3G 大小，如果导入数据库中，大概1.5G（MySQL），而且 2000万也不是个小数目。
按赞数排序
索引啊，这还有什么好想的，如果你知道表结构的话，如果没有导数据库，放在linux上用cat | grep也可以
如果你舍得花时间，你可以把数据整个重构一遍，按照姓名或者其他的查询字段做分表，这样查询起来更快，如果直接用导入的csv文件的话就没办法了，只能直接索引
索引处理，配合表分区处理
只是查找的话就用社工库的查询工具
还是在姓名字段加上合适的索引并将你所感兴趣的列用INCLUDE包含在内。
求数据，（答案输入的字符不够10提示就好了，帮我删我输入的内容干嘛）
在姓名字段建立索引，速度提高不是一点点，本人已经将2000w数据进行导入测试，亲测可行！
在姓名字段建立索引，速度提高不是一点点，本人已经将2000w数据进行导入测试，亲测可行！
如果要支持模糊查询，简单的索引就不行了。但是无论如何，采用索引是一种解决的方法。
最快的是全部载入内存
可以利用redis数据库，把mysql的数据都写入到redis中，在利用reids查询，效率非常高，只不过在写入的时候费一些时间
准确详细的回答，更有利于被提问者采纳，从而获得C币。复制、灌水、广告等回答会被删除，是时候展现真正的技术了！
其他相关推荐听说 mysql 表超过 2000 万记录就会有严重性能问题，这是真的吗？该怎样处理？ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
已注册用户请 &
Great Sites on MySQL
推荐管理工具
MySQL 相关项目
听说 mysql 表超过 2000 万记录就会有严重性能问题，这是真的吗？该怎样处理？
23:31:32 +08:00 · 8180 次点击
27 回复 &| &直到
08:00:00 +08:00
& & 23:34:12 +08:00
分表，升硬件，调参数，换引擎，总能撑得住的
& & 23:40:12 +08:00
分表喽。。。
& & 23:42:57 +08:00 via Android
& & 23:49:59 +08:00
没有这样的说法。
& & 23:52:39 +08:00
要是那样FB不是早就挂了啊！
& & 23:59:14 +08:00
@ fb必然用的不是mysql啊。。。
& & 00:06:30 +08:00
我们的一个单表就有2000万，有点慢，不一定非要分库分表，看业务，用partition也可以解决
& & 00:08:26 +08:00
Facebook uses MySQL, but primarily as a key-value persistent storage, moving joins and logic onto the web servers since optimizations are easier to perform there (on the “other side” of the Memcached layer).
也不会只用一种数据库系统的。
& & 00:09:14 +08:00
@ |||-.- FB不是MySQL的大户么......歪楼了...........
& & 00:21:42 +08:00
@ 呃。一直印象里Facebook用的是Cassandra，搜索了一下原来也用MySQL
& & 00:22:41 +08:00
处理的好就没问题。抓虾当年以每天几百万的速度写入mysql，总量惊人。当然他们做了不少优化。
& & 01:06:52 +08:00
@ 这些优化，一般来说，都有哪些措施呢？
& & 03:19:33 +08:00
@ 有什么问题做什么优化。。。没遇到问题不知道怎么优化
& & 06:37:10 +08:00
2000w 你要是不用复杂查询的话小意思
& & 08:00:20 +08:00
既然楼主说的是听说，那说明楼主还没遇到2000万记录+严重性能问题。
在从听说变成遇到的时间内，我觉得智慧的楼主完全能够解决这个问题~~
你想想你见过的一些还在用早期版本的discuz论坛，轻松过2kw帖子，也挺欢快的。
& & 08:17:57 +08:00
@ 听说是不假；
但是最近项目决策换用一种改进后的 mysql ，其中有一条原因就是标题中提到的这个2kw。
换用需要做很多的改动，很多的查询不支持，有很多限制，整个代码都要改动。
我就想求证下这种决策是否有必要。我知道我改变不了这个决策，也不想改变什么，只是纯好奇，想知道为啥要这样做。
& & 09:16:45 +08:00 via iPhone
用myisam似乎记得单表有超过1亿记录的。
& & 09:19:52 +08:00
@ 我觉得如果因为这种面向未来性能的考虑而给现在的开发带来障碍的话，是有点杞人忧天了。毕竟大多数项目都是渐进式增长的，不可能上线第一天就2kw条记录吧。
正如@ 所说，在0～2kw的过程中，你会积累10w、100W、1000w各种级别的经验，等正真2kw的时候，我相信对你来说已经可能不是什么大问题了。
& & 09:22:50 +08:00 via iPhone
大内存(&64G)+SSD RAID5+多核多CPU，问题不大的
& & 09:24:39 +08:00
这个不能一概而论，2000w不知道楼主从何处得来，或者是多久以前别人得出的结论，现在软件都在发展，MYSQL 5.1和5.5的改进不是一点点，硬件也在改进，内存现在随便就能到32G，即使是5.1，2000w这个数字非常不靠谱，我经历的项目中，有不少单表超过8亿条的数据，适度优化后，增删改查速度也没有很多的下降，还能正常使用，唯一头痛的是当你改变表结构的时候会非常花时间，所以2000w这个数字更多的是出于表结构变更成本上的考虑。
如果你的表结构不是经常变更，没有大量的join操作，2000w这个数字有点保守了，当然坏的数据操作方法其实用不了2000w就会产生大量的慢查询和程序异常。
道听途说是不准的，分表是个好的方法，但首先是要改进你的数据库操作方式，不然即使分表了，依然会有很多问题，而且在某些情况下分表带来的维护工作量远远超过单表，最简单的例子就是当你的查询条件不包含你分表的条件的时候，查询就很痛苦。
& & 09:27:58 +08:00
过早优化是万恶之源，等问题来了再解决，身轻如燕。
& & 09:36:33 +08:00
table partition
& & 22:13:32 +08:00
更新一下，
最后终于大家忍受不住它的不稳定，经过研究和pk，又开始计划换回普通的 mysql 了。
╮(╯_╰)╭
而且据开发这个的人说，本来是用来做非常大的数据存储的，开发时并没有考虑功能强大，只是满足巨大的单个表的高并发增删查改需求；并不适合像我们那个项目使用。
& & 22:46:10 +08:00
我这里的mysql,
九千万条数据，没有复杂查询，没有问题
& & 23:53:13 +08:00
单表1.4亿条记录，数据库目录168G，无压力。
& & 00:07:42 +08:00
以前我维护过一个日增50多万记录的表，总数过亿，分区加合适的索引后，没啥问题
& & 06:34:27 +08:00
搭车问4表(其中2个百万左右,2个百以内)同时读取,会不会很影响效率?
& · & 908 人在线 & 最高记录 3541 & · &
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 32ms · UTC 18:03 · PVG 02:03 · LAX 11:03 · JFK 14:03? Do have faith in what you're doing.深圳人口2000万？大数据时代人口总量的N种算法
107718002100
&107718002100
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。由于单表数据已经达到2000万数据，所以想分表，现假如分1000万为一单表，例有如一两个表：
由于单表数据已经达到2000万数据，所以想分表，现假如分1000万为一单表，例有如一两个表：
............
.............
表a和表b的结构是一样的，其中id为主键int型,title为varchar型字符串
现在的问题请教大家第一这样分表合理吗？其它因为数据是分在不同的表当中的，所以有时候需要同时查
询两个表，现有如下一个查询请教大家如何写才能效率高，并一次查询出来呢？
需要：需要一次性查询出来id=1,2,4的行记录，请问大家如何写才能效率高呢？
select * from a as a,b as b where a.id in(1,2,4) or b.id in(1,2,4);
我像上面这样查询的，但是不对一下查询出来了四列，而且有重复请大家指教
没有更多推荐了，
加入CSDN，享受更精准的内容推荐，与500万程序员共同成长！}

我爱游戏网