Open-Source-Information-Leakage

开源项目信息泄露笔记【内容会持续更新】，博客地址：https://blog.zgsec.cn/archives/205.html，欢迎各位师傅点个Star支持和补充完善~🥰

本笔记版本号：V1.3.1-2024/04/22

0# 概述与现状

当我们对一些项目进行渗透、审计的时候，以及HW红蓝攻防时，对目标的开源项目信息泄露就是重要一环，这也是开源情报（Open-Source Intelligence，OSINT）信息搜集的一部分

0.1 整体现状

2020年春，Unit 42研究人员通过GitHub Event API 分析了超过24,000份GitHub公开数据，发现有数千个文件中可能包含敏感信息

在24,000份GitHub公开数据中，存在以下泄露：

4109个配置文件
2464个API密钥
2328个硬编码的用户名及密码
2144个私钥文件
1089个OAuth令牌

总体占比高达50.56%，想想开源项目信息泄露有多可怕吧

以下两点来自 @E99p1ant 师傅的优质文章：《简单地聊聊 GitHub 信息泄露监控》

0.2 对于企业而言

很多企业的开源项目信息泄露，都是企业的实习生或新入职的员工造成的。他们往往会把自己里在公司负责的一个小项目给 push 到 GitHub 上，或者是将长久以来的技术总结文章发到 GitHub 上进行汇总管理，这些文章中难免包含很多公司的数据库配置，网络拓扑，服务器信息等（这种信息泄露在小公司尤为常见）

虽然有部分公司选择使用 GitLab 等来自建 Git 远程仓库，但是同样未正确设置仓库权限为私有。导致在 /explorer 中可以看到所有的公开仓库，同时可以通过查看公开的 Groups 来得知有哪些用户，之后可以尝试爆破猜测它们的密码等等，可见自建 Git 仓库也并不是万全之计。

0.3 对于个人开发者而言

除企业员工外，还有一群就是个人开发者（特别是高校学生），他们的开源项目信息泄露也尤为严重。很多高校学生，平时喜欢自己写些脚本。比如选课脚本、图书馆通知、刷课脚本等开源项目，往往未对相关的代码进行脱敏，就把源码 push 到 GitHub 上。

于是，就造成这样的情况：写 Web 应用需要对接数据库，代码里会有 MySQL 的数据库账号配置；要发邮件通知，代码里就有个人学生邮箱账号密码；测试数据里可能还带有个人的常用密码；甚至还有一些校园VPN的账号密码等。

有的做得比较大的项目，可能会对接微信小程序、公众号，某教育 App 等第三方应用，甚至一些云厂商的服务，因此还会泄露这些服务的 AK 和 SK。所以，开源项目虽方便了企业和开发者，但其中也埋藏着信息泄露的安全隐患。

1# Google搜索语法

1.1 简单的一些Google语法

site      #指定域名进行搜索，如site:aabyss.cn（收集团队子域名）
intext    #正文中存在关键字的网页，如intext:管理登录（查找包含“管理员登录”关键词的网页）
intitle   #标题中存在关键字的网页，如intitle:管理登录（查找后台管理登陆界面）
info      #一些基本信息
inurl     #URL存在关键字的网页，如inurl:file（查找url上含file的网址寻找上传漏洞）
filetype  #搜索指定文件类型，如filetype:php（查找php类型主页）

1.2 邮件配置信息泄露

很多网站及系统都会使用POP3和SMTP发送来邮件，不少开发者由于安全意识不足会把相关的配置信息也放到Github上。

如果这时候我们动用一下Google搜索命令语句，构造一下关键字，就能把这些信息给找出来了。

site:Github.com smtp
site:Github.com smtp @qq.com
site:Github.com smtp @126.com
site:Github.com smtp @163.com
site:Github.com smtp @sina.com.cn
site:Github.com smtp password
site:Github.com String password smtp

1.3 数据库信息泄露

site:Github.com sa password              #针对SQLServer的信息泄露
site:Github.com root password            #针对MySQL的信息泄露
site:Github.com User ID='sa';Password    #针对SQLServer的信息泄露

1.4 Github之SVN信息泄露

site:Github.com svn
site:Github.com svn username
site:Github.com svn password
site:Github.com svn username password

1.5 数据库备份文件

site:Github.cominurl:sql

1.6 综合信息泄露

site:Github.com password
site:Github.com ftp ftppassword
site:Github.com 密码
site:Github.com 内部

1.7 配合用法

1、找管理后台地址
site：xxx.com intext:管理|后台|登陆|用户名|密码|系统|账号
site：xxx.com inurl:login/admin/manage/manager/admin_login/system
site：xxx.com intitle:管理|后台|登陆

2、找上传类漏洞地址：
site:xxx.com inurl:file
site:xxx.com inurl:upload

3、找注入页面:
site:xxx.com inurl:php?id=

4、找编辑器页面：
site:xxx.com inurl:ewebeditor

5、找登录页面
site:xxx.com inurl:"/admin/login.php"

6、查找含有username或password的xls文件
filetype:xls "username | password"

这里补充一个谷歌黑客语法模板，仅需输入域名即可，来自于 @及辞 师傅的文章《谷歌黑客语法模板》

2# Github高级搜索

网上大部分文章都是使用Google语法来搜索，目前还没看到国内有人使用Github进行高级搜索来查找信息泄露的文章

高级搜索链接：https://github.com/search/advanced

一般搜索以域名、特殊JS路径、备案、网站的技术支持等关键内容为主，不要局限于域名

我们可以活用 GitHub 的高级搜索条件，可以避免很多不必要的干扰，这里就整理了一些：

2.1 过滤时间

pushed:>2020-01-01 created:>2020-01-01

使用过滤器过滤掉一些很老的代码

2.2 筛选代码语言

language:java

筛选特定语言（诸如Java）的代码，排除搜索结果中静态文件的干扰

2.3 数据库连接关键词

"jdbc:mysql://"
"mysqli_connect("

搜索数据库连接语句，往往就能有很多公网数据库的账号密码

2.4 敏感文件名

filename:.env
filename:bash_history
filename:_rsa
filename:jenkins.plugins.publish_over_ssh.BapSshPublisherPlugin.xml

这个总能找到一些奇奇怪怪的东西，甚至是数字证书（之前就找到国内某大学的VPN数字证书，然后就通过VPN进入内网）

2.5 阿里云key

aliyuncs password

思路其实可以放的很广

2.6 ChatGPT密钥

最近ChatGPT不是火遍海内外吗，很多师傅都想尝试一下同样，格局和思路要打开，通过Github高级语法同样能找到并白嫖ChatGPT密钥 （注：本文仅提供思路，请遵守当地法律进行使用）

/"sk-[a-zA-Z0-9]{20,50}"/
"sk-" AND (openai OR gpt)

2.7 配合限定词

使用Github的限定词，如 path:/language:/user:/path:/org/repo:，例如：

path:**/.npmrc _auth
path:*/*config.sh password test.com NOT aabyss.cn
path:*.pem private key
path:src/*.js
language:Python
owner:octocat Aabyss-Team
repo:repo owner name

比如配合限定词，查找QQ邮箱（qq.com）相关联的密码并排除无用信息：

path:*.env ( NOT homestead NOT root NOT example NOT gmail NOT sample NOT localhost NOT marutise) password qq.com

比如配合限定词，在指定文件后缀当中查找AccessKey密钥并找到敏感行：

(path:*.xml OR path:*.json OR path:*.properties OR path:*.txt OR path:*.log path:*.config OR path:*.conf OR path:*.cfg OR path:*.env OR path:*.envrc OR path:*.prod OR path:*.secret OR path:*.private OR path:*.key) AND (access_key OR secret_key OR access_token OR api_key OR apikey OR api_secret OR auth_token OR authsecret) AND ("AK")

这里可以搭配我的这篇文章使用：云业务 AccessKey 标识特征整理

3# 正则表达式（部分内容来自互联网）

正则表达式在开源情报搜集中占了很大的一部分，所以打算整理整理

正则表达式，又称规则表达式（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"），是计算机科学的一个概念。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本

3.1 正则表达式的规则

3.1.1 `[]`:表示一个字符,该字符可以是[]中指定的内容

[abc]：这个字符可以是a或b或c
[a-z]：表示任意一个小写字母
[a-zA-Z]：表示任意一个字母
[a-zA-Z0-9_]：表示任意一个数字字母下划线
[^abc]：该字符只要不是a或b或c

3.1.2 预定义字符

. :表示任意一个字符,没有范围限制
\d :表示任意一个数字,等同于[0-9]
\w :表示任意一个单词字符,等同于[a-zA-Z0-9_]–单词指字母/数字/_
\s :表示任意一个空白字符
\D :表示不是数字
\W :不是单词字符
\S:不是空白字符

3.1.3 量词

? :表示前面的内容出现0-1次
例如: [abc]? 可以匹配:a 或 b 或 c 或什么也不写

+ :表示前面的内容最少出现1次
  例如: [abc]+ 可以匹配:b或aaaaaaaaaa…或abcabcbabcbabcba…
  但是不能匹配:什么都不写 或 abcfdfsbbaqbb34bbwer…

: 表示前面的内容出现任意次(0-多次)—匹配内容与+一致，只是可以一次都不写
例如: [abc]* 可以匹配:b或aaaaaaaaaa…或abcabcba…或什么都不写
但是不能匹配:abcfdfsbbaqbb34bbwer…

{n} :表示前面的内容出现n次
例如: [abc]{3} 可以匹配:aaa 或 bbb 或 aab 或abc 或bbc
但是不能匹配: aaaa 或 aad

{n,m} :表示前面的内容出现最少n次最多m次
例如: [abc]{3,5} 可以匹配:aaa 或 abcab 或者 abcc
但是不能匹配:aaaaaa 或 aabbd

{n,} :表示前面的内容出现n次以上(含n次)
例如: [abc]{3,} 可以匹配:aaa 或 aaaaa… 或 abcbabbcbabcba…
但是不能匹配:aa 或 abbdaw…

3.1.4 ()用于分组,是将括号内的内容看做是一个整体

(abc){3} 表示abc整体出现3次. 可以匹配abcabcabc
但是不能匹配aaa 或abcabc

(abc|def){3}表示abc或def整体出现3次.
可以匹配: abcabcabc 或 defdefdef 或 abcdefabc
但是不能匹配abcdef 或abcdfbdef

3.2 常用的正则表达式

3.2.1 邮箱正则匹配

3.2.2 数字类正则匹配

数字：^ [0-9]*$
n位的数字：^\d{n}$
至少n位的数字：^\d{n,}$
m-n位的数字：^\d{m,n}$
零和非零开头的数字：^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数：^(-)?\d+(.\d{1,2})?$
正数、负数、和小数：^(-|+)?\d+(.\d+)?$
有两位小数的正实数：^ [0-9]+(.[0-9]{2})?$
有1~3位小数的正实数：^ [0-9]+(.[0-9]{1,3})?$
非零的正整数：^ [1-9]\d*$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]$
非零的负整数：^-[1-9][]0-9"$ 或 ^-[1-9]\d$
非负整数：^\d+$ 或 ^ [1-9]\d*|0$
非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数：^\d+(.\d+)?$ 或 ^ [1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$
非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$
正浮点数：^ [1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^ (([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
负浮点数：^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
浮点数：^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

3.2.3 字符串正则匹配

汉字 ：^ [\u4e00-\u9fa5]{0,}$
英文和数字：^ [A-Za-z0-9]+$ 或 ^ [A-Za-z0-9]{4,40}$
长度为3-20的所有字符：^.{3,20}$
由26个英文字母组成的字符串：^ [A-Za-z]+$
由26个大写英文字母组成的字符串：^ [A-Z]+$
由26个小写英文字母组成的字符串：^ [a-z]+$
由数字和26个英文字母组成的字符串：^ [A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线：^ [\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号：^ [\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^ [\u4E00-\u9FA5A-Za-z0-9]{2,20}$

3.2.4 其他常用正则匹配

1.域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

2.手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

3.身份证号(15位、18位数字)：^\d{15}|\d{18}$

4.密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^ [a-zA-Z]\w{5,17}$

5.日期格式：^\d{4}-\d{1,2}-\d{1,2}

6.一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

7.一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

8.xml文件：^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

9.中文字符的正则表达式：[\u4e00-\u9fa5]

10.QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

11.中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

12.IP地址：\d+.\d+.\d+.\d+ (提取IP地址时有用)

13.IP地址：(( ? : ( ?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

14.文件扩展名效验:^([a-zA-Z]\: |\\)\\([^\\]+\\)* [ ^ \/: * ?"<>|]+\.txt(l)?$

3.3 正则配合限定词

在 2.7 我们学习了Gaithub限定词，通过限定词配合正则表达式将会产生巨大威力

查找指定域名下的密码泄露信息并排除无用信息：

/:password=[A-Za-z0–9-_]+/ NOT example NOT guest NOT localhost NOT fake NOT 1234 NOT xxx NOT 123456 NOT test aabyss.cn

查找敏感 access_token 信息泄露并排除无用信息：

/access_token=[A-Za-z0–9-_]+/ NOT example NOT guest NOT localhost NOT fake NOT 1234

3.4 常用正则大全

关于正则补充一个开发脚本时比较好用的正则插件，感谢 @及辞 师傅补充，如下：

Cscode应用商店中搜索"any-rule"，其他IDE也有，在线版正则大全 (any-rule.vercel.app)

Github：any86/any-rule: 常用正则大全, 支持web / vscode / idea / Alfred Workflow多平台

4# 敏感信息泄露监控工具的推荐

关于相关的工具，我这里推荐使用这四个，是我用过感觉蛮好的

四个工具各有特点，可以依据使用者的条件和喜好自行选择

关于工具的搭建和配置，在百度和Google上很多文章都有写，笔者这里就不重复了

4.1 LeakLooker-X

开源地址： https://github.com/GhostWolfLab/LeakLooker-X

LeakLooker是一款用于在公网寻找未授权访问数据库的软件，可以帮你在公网找到对任何人都开放的MongoDB、CouchDB和ElasticSearch数据库，这其中也包括Kibana。

LeakLooker主要是解析来自国外资产测绘引擎Shodan的搜索结果，进行OSINT开源情报信息搜集。

4.2 GitMAD

开源地址： https://github.com/deepdivesec/gitmad

GitMAD是一个用于发现Github上的敏感信息和数据泄漏的工具。通过给定关键字或域，GitMAD便会搜索Github上托管的代码，以查找是否存在匹配项。一旦找到了匹配项，GitMAD将克隆存储库并在文件中搜索一系列可配置的正则表达式。

然后，GitMAD会获取这些结果，并将它们插入到数据库中供后续的查看使用。这些结果也可作为邮件警报发送。另外，GitMAD将持续运行以发现与输入关键字匹配的新存储库。

4.3 GSIL

开源地址： https://github.com/FeeiCN/GSIL/

此工具主要用于GitHub敏感信息泄露的监控，可实现邮件实时告警，缺点不是可视化

4.4 GShark

开源地址： https://github.com/madneal/gshark

这是个可视化的监测工具，它不仅可以监控 Github，还可以监控 Gitlab

支持多个搜索平台，包括 Github，Gitlab（不稳定支持），Searchcode
灵活的菜单以及 API 权限管理
灵活的规则以及过滤规则设置
支持 gobuster 作为子域名爆破的支持
方便易用

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
img		img
LICENSE		LICENSE
README.md		README.md

License

AabyssZG/Open-Source-Information-Leakage

Folders and files

Latest commit

History

Repository files navigation