在项目中我们常会对数据进行去重处理,有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

不过Postgresql还有自带去重函数:distinct

下面是distinct 的实例:

1、创建表:user

CREATE TABLE `user` (
 `name` varchar(30) DEFAULT NULL,
 `age` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `user` VALUES ('张三', 20);
INSERT INTO `user` VALUES ('李四', 22);
INSERT INTO `user` VALUES ('李四', 20);
INSERT INTO `user` VALUES ('张三', 22);
INSERT INTO `user` VALUES ('张三', 20);

查询结果:

SELECT * FROM user
张三 20
李四 22
李四 20
张三 22
张三 20

2、根据 name 查询去重后的数据:

SELECT distinct name FROM user
张三
李四

3、根据name 和 age 查询去重后的数据:

SELECT distinct name,age FROM user
张三 20
李四 22
李四 20
张三 22

4、根据name,age查询重复数据数:

SELECT distinct name,age,count(*) 数据条数 FROM user GROUP BY name,age
张三 20 2
张三 22 1
李四 20 1
李四 22 1

二、查出重复数据后,我们需要删除重复数据

删除重复数据一般几种方式,一般采用 临时表 或者根据 某个字段,例如id等,通过max或者min函数去重。

"htmlcode">

satdb=# create table test_ctid(id int,name varchar(100));
satdb=# insert into test_ctid values(1,‘a'),(1,‘a');
satdb=# insert into test_ctid values(2,‘a'),(3,‘a');

查看记录的ctid值

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | a | (0,3)
3 | a | (0,4)
(4 rows)

对id为2的记录进行更新

satdb=# update test_ctid set name=‘b' where id=2;
UPDATE 1

这里可以看到id=2的记录指向了新的元组标识符 (0,5)

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
3 | a | (0,4)
2 | b | (0,5)
(4 rows)
satdb=# select * from test_ctid where ctid='(0,1)';
id | name
----±-----
1 | a
(1 row)

删除 id=3的记录后,对应的ctid(0,4)不存在了

satdb=# delete from test_ctid where id=3;
DELETE 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
(3 rows)

再插入一条记录时,看看会不会使用(0,4)这个标识符

satdb=# insert into test_ctid values(3,‘d');
INSERT 0 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
3 | d | (0,6)

这里新插入的记录不会使用(0,4),而是直接分配新的标识符(0,6)

总结:

1、ctid的作用与oracle rowid类似,可以唯一标识一条记录

2、记录的更新后,后生产新的ctid

3、记录删除后,新插入的记录不会使用已经删除记录的ctid

4、基于ctid可以实现记录的去重操作

5、基于ctid可以实现差异增量同步(新增、删除、更新)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。

标签:
Postgresql,去重函数,distinct

免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
白云城资源网 Copyright www.dyhadc.com

评论“Postgresql去重函数distinct的用法说明”

暂无“Postgresql去重函数distinct的用法说明”评论...

稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!

昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。

而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?