面对互联网时代中不可避免的算法偏见,如何才能更有效保障 ...
现在最顶尖的算法,就是某音的算法了吧。算法的机理就是先把内容推给一小部分人看效果。
如果效果好,就推给更多人。
如果效果还不错,就再多推。
最后,是一个金字塔的效果,顶尖的内容获得非常多的流量,成为爆款。
比如张同学就是这样被推出来的。
这种算法,保证了最好的内容,得到最多的推荐。
也算是保障了“少数人”的权益吧。
至于被淘汰的,那是大多数。
比如昨天看,某音就淘汰了一个部门呢,整个大部门都没了,被淘汰了,和内容推荐算法的效果是一样的。
我不知道有没有很好的第三方算法,据说算法可是公司的命根子,以前也出过类似的事件的,国家出手禁止企业把算法交给别国。
如果有好的算法,我自己可以弄个平台不?
大的做不了,做个小的也可以啊,区域性的,或者在东南亚搞个小圈子。
@Jack Wang 现在最顶尖的算法,就是某音的算法了吧。
算法的机理就是先把内容推给一小部分人看效果。
如果效果好,就推给更多人。
如果效果还不错,就再多推。
最后,是一个金字塔的效果,顶尖的内容获得非常多的流量,成为爆款。
比如张同学就是这样被推出来的。
这种算法,保证了最好的内容,得到最多的推荐。
也算是保障了“少数人”的权益吧。
至于被淘汰的,那是大多数。
比如昨天看,某音就淘汰了一个部门呢,整个大部门都没了,被淘汰了,和内容推荐算法的效果是一样的。
我不知道有没有很好的第三方算法,据说算法可是公司的命根子,以前也出过类似的事件的,国家出手禁止企业把算法交给别国。
如果有好的算法,我自己可以弄个平台不?
大的做不了,做个小的也可以啊,区域性的,或者在东南亚搞个小圈子。
@Jack Wang 算法偏见是无可避免的
因为在算法诞生之处,无论是编写算法的程序员,还是用来训练算法的数据库都不是全面的中立的。
在算法进化的过程中,这种先天的偏见逻辑更是因为样本的增加而继续循环。
这种偏见是基于某种利益获取的,尤其是广告推流。
当然,本身技术是没有问题的。
但是,基于某种利益的出发点,最终形成了算法偏见。
比如政客背后的广告公司,利用偏见算法在媒体平台推放广告,以影响他人的观点,最终把某些人选上台。
还有更多的就是大数据杀熟
如何保障少数人群体利益?
这个得有赖监管部门置顶标准,得适时审查互联网平台算法代码。
不过,如何说法这些平台开放代码给审查机构,这就是个更大的问题了233
毕竟,这些代码造就了一系列互联网平台,攫取了大量的利益。
在利益面前,我想代码开放甚至于代码反向优化还是比较难得。
算法世界的少数人如何被看见?
https://www.zhihu.com/video/1452634498751627264
先简单解释一下算法偏见,所谓的“算法偏见”,是以现实客观的大数据为基础,用人为设计的没有恶意的程序算法进行机器学习,却在算法的最终决策中产生了不公平的现象。
像算法偏见给社会带来的问题,包括了广告、招聘、警务等许多领域,在这些地方你往往能看到很多关于种族、性别、年龄之间的“偏见”。
而这些被算法忽视、受到了偏见的对象,就是我们这里讨论的“少数人”。
(1)比如某些肤色、特定性别的人,就容易成为被算法忽视的对象。
前黑人总统奥巴马的照片,是关于算法偏见的一个典型案例。
2020年,杜克大学科学家发表了能够将模糊照片清晰化的算法PULSE,它使用的技术,能根据机器学习将低分辨率图像转换为高分辨率图像。
而美国前总统奥巴马的模糊照片经这个算法处理后,生成的却是一张白人面孔。
PULSE的创建者曾经表示,算法在使用时通常会更多地生成白种人的人脸,而这种结果可能是由于训练算法时所使用的数据有关,默认使用白种人的面部特征。
类似的例子还有:2015年,Google Photos曾经把两个黑人标记为“大猩猩”。
(当事人在推特上骂Google Photos:我们不是大猩猩)
搜索“黑人女孩”、“拉丁女孩”或“亚洲女孩”的时候,谷歌网站会弹出色情内容,但是换成“白人”就不会。
从这个程度上讲,机器识别算法面对非白人和女性时表现的很差,于是他们就成了被算法忽略的对象。
(2)在某些场景里,比如职场或犯罪风险检测现场,有某些特征的人也会成为被算法表现出偏见的对象。比如招聘算法对女性的偏见,2018年曾有报道称,在亚马逊设计的AI招聘算法中,如果读取到带有“women”的相关词,算法就会自动降低这个人简历的权重,直接对求职者作降级处理。
比如检测犯罪风险算法对黑人的偏见,2016年的时候新闻机构ProPublica调查了美国各州政府用来评估被告人再犯罪风险的COMPAS算法,结果发现:黑人假释候选人更容易被评为高风险。
很显然,不论从哪个角度看算法面对黑人和女性时都带有偏见,于是他们就成了被算法忽略的对象。
就招聘这个场景来讲,我们看求职者能力要排在第一位。但是对于算法来讲,它不像我们一样会挑重点。
假设求职者的能力为因子a,学历为因子b,性别为因子c,我们更希望看到因子a突出的人才,b和c在a足够强的情况下可以都变成次要;
但有时算法会直接把abc统筹起来做出了一个决策,于是机器自己忽视掉了我们人真正想看到的东西。
实际上算法本身并不会产生偏见,工程师也不会把偏见教给算法。从技术层面来讲,这更倾向于是算法学习的“数据”出现了偏见。
如果搞懂了上面这一点,很多问题就能够被解释。
算法是一面镜子,它只是在映射原始数据,偏见的背后是数据,数据的背后是人。
关于“不同肤色不同对待”,国外原本就存在不同肤色的人种歧视,现实生活里天然存在着对不同人群的刻板印象,于是拿给算法学习的原始数据本身就带有偏见,机器看到了学到了,默认了这种区别。
关于“求职等各种场景”,算法中吸收了人类社会中原有的偏见,性别歧视、学历歧视、年龄歧视等等,算法学习“有限的以往数据”去筛选现在的所有人,很多时候无法保证公平性。
同样的话题放在【互联网时代】中,也会出现算法偏差。现在互联网世界的主力军是15-35岁的人,这些人上网会很爽,因为算法在不停的学习,再把他们可能感兴趣的信息推送给他们,比如你今天点开弹出来的网购链接发现自己好喜欢,点开弹出来的新闻发现好有趣、全是自己爱看的,上网看到的东西都是自己擅长的,喜欢的。
但不是这个年龄段的人呢,比如老年人、残障群体等,会因为技术信息鸿沟,慢慢会变成“少数人”。举个例子,有的老年人不用智能手机,成了互联网的边缘人群,出门没有健康码被公交车拒载。
技术本无罪,某种程度上来讲,算法偏见确实是人类社会的映射。因为它吸收了人类社会的很多偏见的案例,却缺乏像我们一样对常识的判断,而导致了偏见和不公平。
但算法工程师在这个过程中,能做的有很多。
算法偏见的解决办法,是尝试培养负责任的AI。负责任的AI会呈现出什么样子?
——不被滥用和保护隐私数据的(不用担心信息泄露);透明可解释并能让人类参与理解和决策的(反例:检测犯罪风险算法对黑人的偏见);建立在因果推理基础上而非单纯数据统计关联上(反例:招聘算法对女性的偏见);对大多数群体公平公正的技术。
想培养出这种AI,做法一是从数据源头解决。
比如在算法自主学习之前,算法分析师可以先将原本有偏见的数据,或是一些有Bias(偏差)的数据处理的更加公平,事先消除歧视。比如互联网环境下不是只多研究互联网主力军,其他年龄段的老人、年幼者都一并纳入学习对象,照顾到互联网的边缘群体。
做法二,是从算法本身解决。
比如给算法做个优化,把算法引导的更加全面,不要让算法仅仅只为了追求一个目标而去把整个歧视不断地放大。
比如在招聘环境下,算法学习到的不会像上面举的亚马逊例子一样,看到性别是“女性”就降低权重,而是结合一些其他因素来综合判断这个求职者的能力。
做法三,就是从收尾处解决。
也就是说在算法最终产出结果的时候,算法工程师给它去除一些歧视,让它保证更加的公平。
其实不论是从技术或是理论的角度讲,算法偏见是没法完全避免的。但我们能做的是什么呢?
是满足最大程度的公平,去优先解决人们最关注的问题。举个例子,互联网主力军15-35岁以外的边缘人群没有被照顾到,老人出门没有健康码怎么办,盲人没法人脸识别怎么办,那我们就去解决它。
总之,这些关于人工智能的治理,都是让它走向成熟、发展更好的必要手段。
不过我们的最终目的,还是更希望它能成为有温度的AI,就像美国科幻作家艾萨克·阿西莫夫(Isaac Asimov)提出的机器人三定律一样,建设机器人需要其创造者赋予正当的道德伦理观念。
或许我们今天将价值观注入深度学习的模型还正在探索,算法暂时还是人类社会的缩影,但至少,我们在不断的将人工智能用于更有社会价值的场景,在互联网,在动车站,在手机屏幕前,在街道上,在各种场合下,不论是谁都希望他能享受生活的便利。
在能力之内让世界可以变得更有温度,也挺好。 算法偏见这个我不是很懂,我就知道我是某电商平台的会员,我原本准备在双11购买某款产品一看价格是310元?这明显比我平时看的价格好像差距有点大?于是我没买。而在双11过后再看,256元?成交。这种算法偏见也很常见吧?
然后平时我打开某软件,某平台的云计算大数据算法上来就给我精准推荐小姐姐跳舞!我平时也没看小姐姐跳舞?要不就是:路过直播间的家人们~
不懂就问,这些属于算法偏见或者算法歧视嘛?
那么究竟是算法偏见能保证少数人的权益还是算法精准能保证少数人的权益呢?
@篱落 在涉及用户分类的场景,强制算法开源,才能保障算法偏见不被滥用,或者说保持算法偏见最低限度。
不开源的用户分类算法,无论怎么规范,都是自欺欺人;
另外,开源必须是真开源,而不是完成任务用来堵住悠悠众口。
比如送外卖员,时间、单量、运费、人员指派,最好的办法就是成立一个独立第三方基金会/协会,把监管、某团、饱了么之类的外卖平台变成会员,每年交一点钱养着这个协会,然后这个协会开发一个开源中间件,专门用来完成外卖过程中共同的部分,如何分单、如何计时、如何算费用,都必须使用这个第三方中间件发布的版本来完成,开发主力自然来自会员;
用第三方中间件的方式保证算法的开源、公平、透明、正常迭代符合社会价值导向;
算法开源最难的是定义开源的边界,如果打着强制开源的旗号,要求人家开源美颜算法、抠图算法、推荐算法,这就是实质上的恶意滥用了,就会出现“一管就管死一个行业”的惯性副作用了。 给大家看下腾讯的广告后台
互联网几乎透明的时代,你的信息都会被大数据收录,上面其他标签都是字面意思,而行为意向指你平时搜索的关键词,浏览的东西,喜欢的东西等等。比如你最近想买车了,经常浏览一些汽车方面的知识,就会推荐各种汽车广告给你。
像短视频的算法机制通常都是把你的视频,推荐给1-500人观看,根据比例算出你的视频质量,如果视频播放100人,有4个人点赞,说明你的视频质量高,然后就会推送下一个流量池,500-1000,然后再根据比例来看,如果更高,还会推送到下个流量池,流量池越来越大。(仅个人观点)
这是我根据我之前的一个爆款视频算出来的,当时哪个视频只有小一万的播放,就有一百多个人点赞,过了大概两个小时后,变成几十万,一百多万,后来流量池应该更大了,刷新一下就有几千人点赞,估计推到几百万的流量池,最终也收获了42.5W的赞同,1180W的播放量,和2W的粉。
大家也不用担心这些算法机制会侵害你的权益,真正只有那些小网站、小平台、不明APP(商城下载不到的,懂得都懂)才会不经意间侵害你的权益。 恰恰相反,算法侵犯的是“多数人”群体的权益。
我昨晚拉屎的时候突然想出个理论,叫做喜羊羊定律。
如果你10多年前开始上网,会注意到B站有个视频叫做《童年不是喜羊羊太好了》。
这个标题来自于当时的网络流行语,很多人觉得如今的孩子真可怜,只能看“脑残羊”,而他们小时候有各种精品,所以才有了这种观点。
但如果现在我们重新去找那个视频(还在呢),会发现开屏弹幕是:
为什么10年后,会发生如此悬殊的舆论变化?
答:在互联网上发声的群体变了。
这就是喜羊羊定律的核心所在,互联网上嗓门最响亮的群体,实际上才是“少数派”。
我之前看过一份数据,国内80%以上的互联网公司集中在一线或者发达地区。
而提供内容服务或者社交功能的主流平台(B站微博知乎抖音等),几乎全都是在大城市。
同时,拥有巨大影响力的主流媒体,如果它们有新媒体帐号的话,定位也基本都在大城市。
我们都知道,平台的热搜热榜之类东西,看起来是完全由热度决定,但实际上存在大量人为干预。
而什么样的人会负责这方面的工作呢?
显然,就是第一线的运营人员,而他们必然是在大城市里工作,接触的都是大城市生活,会下意识地为他们熟悉、关注的话题制造热度。
口说无凭,看图。
这是微博上半年爆款热搜的统计,注意到问题了吗?
从统计学角度来说,占据人口大多数的二线以下城市、乡镇农村,仿佛是不存在的(除非512这种特定历史事件)。
从关键词来看,“印度”甚至都比国内大多数地区有更多的曝光率。
人数多,但网络热度却很低,而即便我们习惯于使用抖音、头条等算法自定义性质的平台浏览信息,被推送过来的热门内容往往也都和微博热搜等保持一致。
这其实是会造成很多社会问题的。
例如,当国家制定一项政策时,如果从网络听取意见,很可能收集到的只是年轻群体、而且是大城市年轻群体的想法。
当一些主流媒体发布“热评”时,撰写评论的人员可能就是坐在大城市高档写字楼里吹空调,有时候将自己缺乏常识的弱点直接暴露出来(例如前阵子典型“最好处理办法是紧急刹车”)。
制定算法时,由于算法工作者本身就是在大城市里工作,必然会无意识中将个人偏好植入进去。
如果说,美国那边出现的是“美国反对美国”,那么我们这边至少也是“中国看不到中国”。
“沉默的大多数”由此产生。
所以我对于前阵子张同学爆红,其实是很感兴趣的。
因为它,哪怕很多网红媒体都产生了不同意见,有些觉得这是展现真实农村烟火气,有些觉得这是抹黑农村建设,甚至火X方阵直接扣上了“给境外势力送材料”的大帽子。
可这些网红媒体斗法时,又有多少人去真正寻求“沉默的大多数”意见,还是他们坐在办公室里“代表”了中国?
喜羊羊定律,对动漫迷而言不过只是成长中的趣闻。
但站在国家和社会层面,不好笑。 在看到这个问题的时候,我们或许会先疑惑互联网算法是什么?
可以先试想一下生活中一个我们所有人都经历过的一个场景:
有时我们在软件界面或者搜索引擎搜索我们想要了解的内容,甚至只是线下和朋友谈论到某件东西某件事,即刻打开手机某些软件个性化推荐页面便弹出刚刚我们所搜索过的甚至线下谈论过的东西。
而这些,便是基于算法的应用,才来到我们的个性化推荐页面。算法将我们在网络上的上网习惯,购物记录,GPS位置数据等各种网上足迹和活动,转变为对人们的各种打分和预测。这些打分和预测进而左右到我们在生活中的各种决策,从而影响到我们的生活。
当我们了解到算法是什么时,我们可能会愤怒,愤怒它侵犯了我们的隐私。
可其实,它还有一面也是我们忽略的一面,算法存在歧视和不公平。
再次试想一个可能我们大部分人都经历过的场景:在同一个平台同一件东西,你和朋友同时购买时价格是不一样的,甚至差别有点大。
这便是一种歧视。价格高的那位往往是因为使用频繁,价格低的那位则因为商家想要通过低价吸引用户经常使用而作出的算法选择。
这只是我们所知道的算法歧视非常小的一个角落,而其中对我们生活影响更大的算法歧视并不为我们所知。
在相关资料显示:算法评估正在走进信用评估,雇佣评估,犯罪风险评估等方面,算法评估的结果将直接影响并决定放贷额度,刑罚选择,雇佣与否。当我们遭遇这些时,算法歧视的问题则就不那么无足轻重了。
在我们的记忆中,人类决策才是因为信息差,价值差异等因素带有偏见影响结果的公正性,算法决策则是基于大数据做出的理性决策。
算法的预测结果,基于两种要素,数据录入和算法模型。而这两种,都是基于人的意志所发生的,所以是算法归根到底还是人的意志体现。
我们要警惕算法歧视,就是要警惕人的意志披着合法外衣行“不法之事”。
如何避免这种歧视,作为我们个人来讲的话,其实没法对抗。我们只是要了解到这种现象的存在,在遇到某些情形时要知道自己是遭遇到了算法歧视,并且采取合理方式勇敢维权。
作为国家和社会层面来说,构建技术公平规则并保证透明公开,建立算法问责程序等。
所以面对算法歧视的最大公平和多少数人的保障,就是算法技术规则的公开和透明并建立相应遭遇歧视追责程序。 算法?说实话,顶级的算法应该是抖音的算法吧,只要你看了某人,看了某个视频,然后会一直推荐给你,这个也是贼烦,大数据,快手也是一样,有一说一这个算法恶心