更新随笔

2pptx Build Log

Updates, ideas, observations, and small experiments while 2pptx keeps growing.

Update

更新了一个小的api中转站

自己用用蛮好的...群里也简单用用..

Update

新增PPT素材包

可以拆分素材啦,就是要自己拼欸。

Observation

前几天搭建了一个号池然后炸穿

三天两头封号,慌得一笔。。。。

Observation

自己既然能搭建为什么还要买呢..

全部都搭建完了,看看成本和之前买API差距能有多少。

Experiment

挠秃头了都

拆一个文件要30分钟...妈诶还没办法按位置还原

Experiment

服务器迁移完毕!

希望能有更好的访问体验叭~

Observation

待优化内容

工作台支持矩形旋转;

高级转换支持选择不去字模块;

合并文本框不是所有场景都合;

拆解元素(?怎么又来)。

Observation

拆分又失败了

不知道第几次失败了欸,想的方案不稳定,有时候效果蛮好有时候效果不行,没办法当作一个商业商品出售。

难道是要到头了么....

Observation

好几天没有写点什么了

用AI尝试拆元素做了好多好多,但都失败了,不知道有什么模型可以直接弄透明底图...

Observation

拆小元素又失败了

...脑壳疼,好难喔。感觉自己思路已经断了.....

Experiment

拆元素这个..总算有点进展了

怎么说的,我也好想有钱买好的显卡呜呜呜..

Observation

好消息有第一笔海外付款了

坏消息paypal直接封号了,人傻了。

文件还是一个支持不友好的韩文,后台看到订单时候心里就默念别付款别付款,最后还是付款了。paypal扣掉手续费后还不够给人退款的,而且paypal帐号似乎也封停了,晚点打电话问问客服。。。

Update

工作台支持框选删除文字框

不用再一个个点啦,拉个框就取消文字框识别咯

Experiment

手动工作台解耦重构了!

希望不会出现大问题,原来几个上千行的主文件代码得慢慢拆...

Observation

并发不够了..

如果租GPU服务器一天大几十的成本,现在还没办法做到盈亏持平;

如果不搞GPU服务器,高峰期排队等待时间还挺长影响用户体验..

是个问题。。。。。

Experiment

新增paypal支付

仅在非中文环境下出现~

什么都对接一遍也是不错的嘞。

Experiment

给自己加了个告警系统

用于队列积压问题,严重时候直接飞书发消息我能看到,这样能避免一直盯着看咯。飞书机器人直接webhook就行,顺便给自己优化下设置后台,分了多个tab感觉好多了

Update

修复了“修复部分场景pptx无法打开问题”后出现的无法打开问题

试图用临时 PPTX 覆盖原输出文件时,Windows 报 PermissionError [WinError 5] 拒绝访问。

我人麻了....代码如果能跑就不要去动他

Update

修复部分场景pptx无法打开问题

接用户反馈然后处理了~

AI推测根因是:某些 Windows PowerPoint 版本/受保护视图路径对 python-pptx 默认带入的 Mac 打印设置 part 兼容性不好,直接报“PowerPoint 无法读取。

方案:删除 ppt/printerSettings/ 里的模板打印设置、删掉对应 printerSettings relationship,并在没有其他 .bin 文件时移除 [Content_Types].xml 里的 .bin 类型声明。

Update

优化ocr识别框和合并文本框速度

OCR识别框用了新的一些方式,应该可以增加识别成功率。

合并文本框本来是串行任务,现在是并列进行啦,应该能提速不少~

Experiment

mineru不行paddle也不行

mineru无法识别图片里的文字,看他们训练说是主要是白底为主,PPT五彩斑斓的似乎没怎么训练到;

paddle有排队而且生成会出现2个文字大框合并成1个的情况。

还是回退到deepseek文字合并吧,好像什么都没有做...

Update

API接口上线~

可惜本来要用的没人用了...问题不大,后续万一有人要呢

Experiment

试试mineru解析看看,不知道会不会比deepseek更好一些

对比了下paddle和mineru还是试试mineru吧,但文字识别确实还是paddleocr更强一点..

Update

新增兑换码购买

购买多次兑换码单价更便宜~

但好像做的收银台有点问题..emmm

Update

优化付款二维码加载速度+加载速度埋点

支付客户端复用/连接池

改 QR 输出模型

嗯..希望后续能正常运行吧

Update

海外版新增gumroad付费逻辑

paypal一直失败,后来AI说可以用gumroad,付款后发兑换码形式,听起来也似乎不错,折腾了一下午总算上线了,不知道会有多少海外同学买...

后续如果订单多了要试试自动发货,目前嘛还是邮件手动回吧。

不知道什么时候会有第一笔海外美刀~

Observation

claude code也降智了嘛

审查分支代码说有5给P0级别漏洞,我虽然不懂代码但仔细看了下似乎当时是有别的方案来规避的,经过2次battle,他最后回复说“之前两版我的 P0 都站不住。谢谢两次纠正”..

怎么说呢,代码是可以不懂的,但是自己代码的流程和逻辑必须要了解清楚,否则很容易被带偏。

突然想到刚让cc更新了个readme..坏了..得去检查cc是不是又搞砸了(/(ㄒoㄒ)/~~)

Experiment

折腾-失败-折腾-失败 无限循环

尝试了新的字符级mask遮罩,最后效果不稳定,遂放弃;

尝试了公式识别,最后效果也不稳定,遂放弃;

尝试了ppt元素用gpt来拆解,最后效果依然不稳定,遂放弃...

我:???

Update

花重金更换了微信支付接口

有同学反馈微信支付有时候刷新不出来,现在应该不会有这样问题了..吧。

收费只是维持一些必要支出,真靠这个赚钱还是不太现实~

Observation

五一假期第二天~依然茫然中

不知道该干什么。每天浑浑噩噩的感觉..

前几天去医院发现检查视力发现还有干眼症,害,钱没赚到多少,毛病倒是不少。。

Experiment

linux服务器的运行机制做了些更改

本身是1个总服务运行3个任务,现在是开了3个服务器每个运行1个任务,不会冲突也能更好调用显存..不然看到32G显存一直空着太难受了。

Observation

好消息有新工作了 坏消息被我给拒了

哎,感谢王总给我机会,我也特别喜欢和热爱这个事业方向,可惜原老板希望我陪他站完公司最后一班岗,于情于理我都感觉一走了之有点不太厚道。

希望未来还有机会能从事气象教育这个方向...

三十而立,但我快30了也不知道未来在哪里,我所热爱的到底是什么呢?

Update

工作台大更新咯

添加新手指引教程;

工作台内可手动合并单元格;

画布可连续画识别框;

可临时关闭文字识别展示。

Idea

感谢前期大佬们的赞赏支持,让我有动力可以继续下去

现在更新收费系统了~应该也许还好不算贵吧?

只要能覆盖运维成本就行..一个月一千多嘞..

Observation

网站开始付费了,也带来了第一个退款~

看后台反馈发现有个1星评价,而且还是付费用户,看了下文件似乎处理效果确实不好~用户也没要求退款,我后台就直接给退了吧。

希望他还能来...

Observation

踩坑了,linux的写法还不一样啊

今天看工作台发现字体变成方框了,问AI才知道字体文件linux路径和win不太一样,单独又兼容linux加了点东西。

嗯,还得是AI。

Idea

上班公司要倒闭了..

哎~没工作了。什么都不想干了,躺...

Update

浅尝试收个费

花了大精力对接了下收费接口,终于调整好了..

现在正式开始收费了,不知道一天能有多少大佬给我付钱..呜呜呜

Observation

第一次遇到家里小水管不够的情况..

高峰期5070ti确实不够用了,加了一台云服务器跑,一小时1.58...有亿点点贵。

哎~后续得加收费回收成本了

Observation

高清导出和文本框合并好慢喔

电脑资源不够用了,妈诶.....

Observation

新功能上线第一件事修BUG喔

合并文本框在工作台模式下简直一团糟...哎,开修

Update

新增文本框合并&富文本文本框&隐私条款协议更新

之前ocr会把多行但语义连贯的文本框分割成一行一行的,现在依托于deepseekV4可以合并成一个方便编辑了;

富文本文本框就是同个文本框里支持不同大小、颜色、粗细的字了,不会再单独分割;

隐私条款协议啥的就是因为用了deepseek,提交给第三方的协议更新了下。

Experiment

还得是我国产deepseek

合并文字框看来是一定要用到LLM大模型,正好deepseekv4.0上了,试了下flash效果还是不错的,成本下降不少~在考虑要不要做收费呢...

Experiment

识别公式不知道好不好做捏

看看有没有比较好的方法可以识别公式,有小伙伴反馈说公式也很重要,现在的2pptx确实对于公式基本没有识别诶,挠头Ing..

Update

新增支持批量上传啦!

有点激动,这个东西搞了好几天~

从上传判定、任务排队、打包下载,都是一堆坑...大坑。

上线先看看,有问题再修。

Idea

文本框合并似乎可以用LLM大模型来..

但是成本有点高,试了下一整个文件用Gemini 3.1flash要接近7毛钱了,而且速度也不稳定,有的几秒就能搞定,有时候要几百秒,很不稳定,用户体验极差...

Update

文件上传限制提升到35M&异常PDF错误提示修正

30M不够用咯,改成35M应该就好多了~

坏PDF 会明确告诉用户“文件本身有问题”,而不是“稍后重试”

Observation

怎么数据库也有坑啊

日志里经常看到轮询出现超时的问题,然后codex原话“所以这不是“纯网络掉线”。网络可能偶尔抖,但主病灶是 SQLite 写锁/读写并发不够扛。”

我:???

codex解释了一番balabala

我:那你直接开始干活改吧

Experiment

又加了几个网页埋点

今天群里有用户突然说上传不上去了,我自己本地环境测试都正常,不知道为什么,拉了一下数据报表,发现有4~5名同学貌似就是传不上去。我现在也没有加对应埋点,现在把这些补齐了,后面再遇到再排查吧。

Update

新增校对工作台本页不识别按钮

应群里同学的反馈,有些页面在工作台里不想一个个删除文字框,所以新增了全部不识别的按钮~

Observation

批量上传好难做喔

本来以为可能没什么大事情,结果牵扯到并发、排队、结果页、下载、取件码...等等一堆事情,一个个解决叭~看能不能尽快搞上线~

Observation

首页有那么难看嘛

今天同事有说首页UIUX比较丑,似乎确实挺丑的还很单调..晚点让ai帮忙修一波上线!

Update

单用户上传上限提升&修复PPTX尺寸过大&下载PPT文件名和原文件一致&新增更新随笔

上传上限从10个到50个;

有同学指出转的PPTX尺寸会比原来PDF大,找到问题后修了;

下载文件名不再是一串数字字母代码了,而是文件名-2pptx.com.pptx,更清晰啦;

更新随笔和主要功能没什么交集..就想记录一下叭。也许未来回头看也能有不错的感慨。

Observation

群二维码竟然过期了!

我就说怎么好几天群里没有新人,原来是过期了.,..

Idea

GPT-IMAGE-2太强了!

今天做了个新分支,尝试用AI的力量去字,结果嘛...不是很好,而且成本也挺高的,不太适合全自动化,也许未来能放到工作台?

Idea

参考同行大佬的palama

这几天研究隔壁PALAMA的杰作,看到他们的方案真的很棒,尝试两个分支去试自动 inpaint 优化..可惜全自动模式一直效果很差很差...

Idea

seo优化怎么办呢

看谷歌里好几个页面都没有收录...哎,重新整理下叭

Update

首页上传文件重复bug

有同学群里说首页文件上传需要选2次..现在修复啦~

Observation

换了服务器,主要还是想省点钱

鹅厂的服务器到期咯,现在换了个价格便宜一半,只要20块一个月诶~线上环境也顺手收拾了一遍。地区识别、代理设置和 nginx 那些细节也一起理了,属于做完以后我自己先松一口气的更新。

Experiment

结果页塞进了一个“更多工具”入口

有个同学做了一个很好的站,纯靠前端就可以调整好PDF的一些布局,羡慕~

Update

新增高质量导出&仅去notebooklm水印模式

有同学群里反馈转的pptx变模糊了,实际确实是我为了妥协做的压缩,现在支持高质量导出咯~

另外我也发现有些同学只想去掉右下角水印,现在也新增了这个功能,其他都不会改只去水印。

Idea

段落合并尝试

OCR识别的文字都是一行一行文字框,挺多是一整个大段落被拆散,有什么办法可以全自动合并呢...

Update

结果页新增排队等待估算

排队等待这件事,最怕的不是慢,而是完全没数,现在至少不用再让人盯着页面纯靠猜咯。。

Update

上线中文打赏码!

(这样算更新?)

开始伸手要钱了,赛博乞丐开始乞讨...爸爸妈妈们给点叭~不然流量费太贵惹。。

Update

工作台应该算是优化完成了

复合预览层、编辑流程、模式切换、引导弹窗,这些都在这天前后补齐了。属于一边修边用,一边用一边继续嫌弃,然后再继续修..无限循环

Observation

工作台还有好多优化地方

比如交互和状态细节:进度提示、资源释放、界面节奏、哪里该自动保存...持续折腾吧

Update

新增手动工作台

工作台这块终于做完了,现在可以自由选择识别框,不再担心不该识别去除的地方给去除了~

Update

上传提高30M!

有同学反馈20M太小了,所以这次上传上限提到了 30MB~希望我的服务器不会崩

Experiment

水印遮罩和OCR输入格式优化尝试

这个遮罩确实不好选,mask覆盖也是..ocr有时候还不太准,不知道能不能调整好嘞?

Update

博客和双语SEO再次优化

本来通过lang然后借鉴了其他页面还是走zh这种,希望能有收录叭。

Update

调整优化识别效果

疯狂跟阈值、过滤和对齐较劲。想把字框抓得准一点,又不想把背景抹得太凶,最后只能老老实实一项一项试...也算是找到一个平衡点了吧。

Observation

seo内容补齐也好麻烦

上线做了一大堆SEO应该有的内容,比如反馈面板、页脚、FAQ、favicon、支持邮箱、分析埋点...该有的好像都有了,感觉看上去像个样子...

Update

2pptx正式上线啦~

把上传、转换、双语首页、反馈入口和基础 SEO都补齐了,目标是做全球SEO承接全球流量!

希望我的小破电脑可以顶住...