更新随笔

更新随笔

灰灰同学关于 2pptx 的更新、想法、碎碎念,还有做着做着冒出来的一些小折腾。

更新

更新了一个小的api中转站

自己用用蛮好的...群里也简单用用..

更新

新增PPT素材包

可以拆分素材啦,就是要自己拼欸。

碎碎念

前几天搭建了一个号池然后炸穿

三天两头封号,慌得一笔。。。。

碎碎念

自己既然能搭建为什么还要买呢..

全部都搭建完了,看看成本和之前买API差距能有多少。

小折腾

挠秃头了都

拆一个文件要30分钟...妈诶还没办法按位置还原

小折腾

服务器迁移完毕!

希望能有更好的访问体验叭~

碎碎念

待优化内容

工作台支持矩形旋转;

高级转换支持选择不去字模块;

合并文本框不是所有场景都合;

拆解元素(?怎么又来)。

碎碎念

拆分又失败了

不知道第几次失败了欸,想的方案不稳定,有时候效果蛮好有时候效果不行,没办法当作一个商业商品出售。

难道是要到头了么....

碎碎念

好几天没有写点什么了

用AI尝试拆元素做了好多好多,但都失败了,不知道有什么模型可以直接弄透明底图...

碎碎念

拆小元素又失败了

...脑壳疼,好难喔。感觉自己思路已经断了.....

小折腾

拆元素这个..总算有点进展了

怎么说的,我也好想有钱买好的显卡呜呜呜..

碎碎念

好消息有第一笔海外付款了

坏消息paypal直接封号了,人傻了。

文件还是一个支持不友好的韩文,后台看到订单时候心里就默念别付款别付款,最后还是付款了。paypal扣掉手续费后还不够给人退款的,而且paypal帐号似乎也封停了,晚点打电话问问客服。。。

更新

工作台支持框选删除文字框

不用再一个个点啦,拉个框就取消文字框识别咯

小折腾

手动工作台解耦重构了!

希望不会出现大问题,原来几个上千行的主文件代码得慢慢拆...

碎碎念

并发不够了..

如果租GPU服务器一天大几十的成本,现在还没办法做到盈亏持平;

如果不搞GPU服务器,高峰期排队等待时间还挺长影响用户体验..

是个问题。。。。。

小折腾

新增paypal支付

仅在非中文环境下出现~

什么都对接一遍也是不错的嘞。

小折腾

给自己加了个告警系统

用于队列积压问题,严重时候直接飞书发消息我能看到,这样能避免一直盯着看咯。飞书机器人直接webhook就行,顺便给自己优化下设置后台,分了多个tab感觉好多了

更新

修复了“修复部分场景pptx无法打开问题”后出现的无法打开问题

试图用临时 PPTX 覆盖原输出文件时,Windows 报 PermissionError [WinError 5] 拒绝访问。

我人麻了....代码如果能跑就不要去动他

更新

修复部分场景pptx无法打开问题

接用户反馈然后处理了~

AI推测根因是:某些 Windows PowerPoint 版本/受保护视图路径对 python-pptx 默认带入的 Mac 打印设置 part 兼容性不好,直接报“PowerPoint 无法读取。

方案:删除 ppt/printerSettings/ 里的模板打印设置、删掉对应 printerSettings relationship,并在没有其他 .bin 文件时移除 [Content_Types].xml 里的 .bin 类型声明。

更新

优化ocr识别框和合并文本框速度

OCR识别框用了新的一些方式,应该可以增加识别成功率。

合并文本框本来是串行任务,现在是并列进行啦,应该能提速不少~

小折腾

mineru不行paddle也不行

mineru无法识别图片里的文字,看他们训练说是主要是白底为主,PPT五彩斑斓的似乎没怎么训练到;

paddle有排队而且生成会出现2个文字大框合并成1个的情况。

还是回退到deepseek文字合并吧,好像什么都没有做...

更新

API接口上线~

可惜本来要用的没人用了...问题不大,后续万一有人要呢

小折腾

试试mineru解析看看,不知道会不会比deepseek更好一些

对比了下paddle和mineru还是试试mineru吧,但文字识别确实还是paddleocr更强一点..

更新

新增兑换码购买

购买多次兑换码单价更便宜~

但好像做的收银台有点问题..emmm

更新

优化付款二维码加载速度+加载速度埋点

支付客户端复用/连接池

改 QR 输出模型

嗯..希望后续能正常运行吧

更新

海外版新增gumroad付费逻辑

paypal一直失败,后来AI说可以用gumroad,付款后发兑换码形式,听起来也似乎不错,折腾了一下午总算上线了,不知道会有多少海外同学买...

后续如果订单多了要试试自动发货,目前嘛还是邮件手动回吧。

不知道什么时候会有第一笔海外美刀~

碎碎念

claude code也降智了嘛

审查分支代码说有5给P0级别漏洞,我虽然不懂代码但仔细看了下似乎当时是有别的方案来规避的,经过2次battle,他最后回复说“之前两版我的 P0 都站不住。谢谢两次纠正”..

怎么说呢,代码是可以不懂的,但是自己代码的流程和逻辑必须要了解清楚,否则很容易被带偏。

突然想到刚让cc更新了个readme..坏了..得去检查cc是不是又搞砸了(/(ㄒoㄒ)/~~)

小折腾

折腾-失败-折腾-失败 无限循环

尝试了新的字符级mask遮罩,最后效果不稳定,遂放弃;

尝试了公式识别,最后效果也不稳定,遂放弃;

尝试了ppt元素用gpt来拆解,最后效果依然不稳定,遂放弃...

我:???

更新

花重金更换了微信支付接口

有同学反馈微信支付有时候刷新不出来,现在应该不会有这样问题了..吧。

收费只是维持一些必要支出,真靠这个赚钱还是不太现实~

碎碎念

五一假期第二天~依然茫然中

不知道该干什么。每天浑浑噩噩的感觉..

前几天去医院发现检查视力发现还有干眼症,害,钱没赚到多少,毛病倒是不少。。

小折腾

linux服务器的运行机制做了些更改

本身是1个总服务运行3个任务,现在是开了3个服务器每个运行1个任务,不会冲突也能更好调用显存..不然看到32G显存一直空着太难受了。

碎碎念

好消息有新工作了 坏消息被我给拒了

哎,感谢王总给我机会,我也特别喜欢和热爱这个事业方向,可惜原老板希望我陪他站完公司最后一班岗,于情于理我都感觉一走了之有点不太厚道。

希望未来还有机会能从事气象教育这个方向...

三十而立,但我快30了也不知道未来在哪里,我所热爱的到底是什么呢?

更新

工作台大更新咯

添加新手指引教程;

工作台内可手动合并单元格;

画布可连续画识别框;

可临时关闭文字识别展示。

想法

感谢前期大佬们的赞赏支持,让我有动力可以继续下去

现在更新收费系统了~应该也许还好不算贵吧?

只要能覆盖运维成本就行..一个月一千多嘞..

碎碎念

网站开始付费了,也带来了第一个退款~

看后台反馈发现有个1星评价,而且还是付费用户,看了下文件似乎处理效果确实不好~用户也没要求退款,我后台就直接给退了吧。

希望他还能来...

碎碎念

踩坑了,linux的写法还不一样啊

今天看工作台发现字体变成方框了,问AI才知道字体文件linux路径和win不太一样,单独又兼容linux加了点东西。

嗯,还得是AI。

想法

上班公司要倒闭了..

哎~没工作了。什么都不想干了,躺...

更新

浅尝试收个费

花了大精力对接了下收费接口,终于调整好了..

现在正式开始收费了,不知道一天能有多少大佬给我付钱..呜呜呜

碎碎念

第一次遇到家里小水管不够的情况..

高峰期5070ti确实不够用了,加了一台云服务器跑,一小时1.58...有亿点点贵。

哎~后续得加收费回收成本了

碎碎念

高清导出和文本框合并好慢喔

电脑资源不够用了,妈诶.....

碎碎念

新功能上线第一件事修BUG喔

合并文本框在工作台模式下简直一团糟...哎,开修

更新

新增文本框合并&富文本文本框&隐私条款协议更新

之前ocr会把多行但语义连贯的文本框分割成一行一行的,现在依托于deepseekV4可以合并成一个方便编辑了;

富文本文本框就是同个文本框里支持不同大小、颜色、粗细的字了,不会再单独分割;

隐私条款协议啥的就是因为用了deepseek,提交给第三方的协议更新了下。

小折腾

还得是我国产deepseek

合并文字框看来是一定要用到LLM大模型,正好deepseekv4.0上了,试了下flash效果还是不错的,成本下降不少~在考虑要不要做收费呢...

小折腾

识别公式不知道好不好做捏

看看有没有比较好的方法可以识别公式,有小伙伴反馈说公式也很重要,现在的2pptx确实对于公式基本没有识别诶,挠头Ing..

更新

新增支持批量上传啦!

有点激动,这个东西搞了好几天~

从上传判定、任务排队、打包下载,都是一堆坑...大坑。

上线先看看,有问题再修。

想法

文本框合并似乎可以用LLM大模型来..

但是成本有点高,试了下一整个文件用Gemini 3.1flash要接近7毛钱了,而且速度也不稳定,有的几秒就能搞定,有时候要几百秒,很不稳定,用户体验极差...

更新

文件上传限制提升到35M&异常PDF错误提示修正

30M不够用咯,改成35M应该就好多了~

坏PDF 会明确告诉用户“文件本身有问题”,而不是“稍后重试”

碎碎念

怎么数据库也有坑啊

日志里经常看到轮询出现超时的问题,然后codex原话“所以这不是“纯网络掉线”。网络可能偶尔抖,但主病灶是 SQLite 写锁/读写并发不够扛。”

我:???

codex解释了一番balabala

我:那你直接开始干活改吧

小折腾

又加了几个网页埋点

今天群里有用户突然说上传不上去了,我自己本地环境测试都正常,不知道为什么,拉了一下数据报表,发现有4~5名同学貌似就是传不上去。我现在也没有加对应埋点,现在把这些补齐了,后面再遇到再排查吧。

更新

新增校对工作台本页不识别按钮

应群里同学的反馈,有些页面在工作台里不想一个个删除文字框,所以新增了全部不识别的按钮~

碎碎念

批量上传好难做喔

本来以为可能没什么大事情,结果牵扯到并发、排队、结果页、下载、取件码...等等一堆事情,一个个解决叭~看能不能尽快搞上线~

碎碎念

首页有那么难看嘛

今天同事有说首页UIUX比较丑,似乎确实挺丑的还很单调..晚点让ai帮忙修一波上线!

更新

单用户上传上限提升&修复PPTX尺寸过大&下载PPT文件名和原文件一致&新增更新随笔

上传上限从10个到50个;

有同学指出转的PPTX尺寸会比原来PDF大,找到问题后修了;

下载文件名不再是一串数字字母代码了,而是文件名-2pptx.com.pptx,更清晰啦;

更新随笔和主要功能没什么交集..就想记录一下叭。也许未来回头看也能有不错的感慨。

碎碎念

群二维码竟然过期了!

我就说怎么好几天群里没有新人,原来是过期了.,..

想法

GPT-IMAGE-2太强了!

今天做了个新分支,尝试用AI的力量去字,结果嘛...不是很好,而且成本也挺高的,不太适合全自动化,也许未来能放到工作台?

想法

参考同行大佬的palama

这几天研究隔壁PALAMA的杰作,看到他们的方案真的很棒,尝试两个分支去试自动 inpaint 优化..可惜全自动模式一直效果很差很差...

想法

seo优化怎么办呢

看谷歌里好几个页面都没有收录...哎,重新整理下叭

更新

首页上传文件重复bug

有同学群里说首页文件上传需要选2次..现在修复啦~

碎碎念

换了服务器,主要还是想省点钱

鹅厂的服务器到期咯,现在换了个价格便宜一半,只要20块一个月诶~线上环境也顺手收拾了一遍。地区识别、代理设置和 nginx 那些细节也一起理了,属于做完以后我自己先松一口气的更新。

小折腾

结果页塞进了一个“更多工具”入口

有个同学做了一个很好的站,纯靠前端就可以调整好PDF的一些布局,羡慕~

更新

新增高质量导出&仅去notebooklm水印模式

有同学群里反馈转的pptx变模糊了,实际确实是我为了妥协做的压缩,现在支持高质量导出咯~

另外我也发现有些同学只想去掉右下角水印,现在也新增了这个功能,其他都不会改只去水印。

想法

段落合并尝试

OCR识别的文字都是一行一行文字框,挺多是一整个大段落被拆散,有什么办法可以全自动合并呢...

更新

结果页新增排队等待估算

排队等待这件事,最怕的不是慢,而是完全没数,现在至少不用再让人盯着页面纯靠猜咯。。

更新

上线中文打赏码!

(这样算更新?)

开始伸手要钱了,赛博乞丐开始乞讨...爸爸妈妈们给点叭~不然流量费太贵惹。。

更新

工作台应该算是优化完成了

复合预览层、编辑流程、模式切换、引导弹窗,这些都在这天前后补齐了。属于一边修边用,一边用一边继续嫌弃,然后再继续修..无限循环

碎碎念

工作台还有好多优化地方

比如交互和状态细节:进度提示、资源释放、界面节奏、哪里该自动保存...持续折腾吧

更新

新增手动工作台

工作台这块终于做完了,现在可以自由选择识别框,不再担心不该识别去除的地方给去除了~

更新

上传提高30M!

有同学反馈20M太小了,所以这次上传上限提到了 30MB~希望我的服务器不会崩

小折腾

水印遮罩和OCR输入格式优化尝试

这个遮罩确实不好选,mask覆盖也是..ocr有时候还不太准,不知道能不能调整好嘞?

更新

博客和双语SEO再次优化

本来通过lang然后借鉴了其他页面还是走zh这种,希望能有收录叭。

更新

调整优化识别效果

疯狂跟阈值、过滤和对齐较劲。想把字框抓得准一点,又不想把背景抹得太凶,最后只能老老实实一项一项试...也算是找到一个平衡点了吧。

碎碎念

seo内容补齐也好麻烦

上线做了一大堆SEO应该有的内容,比如反馈面板、页脚、FAQ、favicon、支持邮箱、分析埋点...该有的好像都有了,感觉看上去像个样子...

更新

2pptx正式上线啦~

把上传、转换、双语首页、反馈入口和基础 SEO都补齐了,目标是做全球SEO承接全球流量!

希望我的小破电脑可以顶住...